여러분, 빅데이터란 말을 자주 듣고 계시나요? 신문기사, 뉴스 또는 직장 등 우리 사회에 빅데이터란 용어가 어느새 자주 등장하고 있는데요, 여러분은 빅데이터에 대해 얼마나 알고 계시나요? 빅데이터란 많은 정보를 신속하게 수집해서 원하는 의미 있는 데이터를 뽑아내어, 비즈니스 가치를 찾아내는 것이라 할 수 있어요. 즉, 복잡하고 다양한 데이터에서 비즈니스 가치를 찾아내는 과정이 빅데이터 분석이라고 할 수 있습니다.

 

빅데이터 예시 이미지1

 

빅데이터의 역사

 

빅 데이터(Big data)란 개념은 비교적 최근의 것이긴 하지만, 대용량 데이터의 시초는 관계형 데이터베이스가 개발되면서 데이터 세계가 막 시작하던 1960~70년대입니다. 이후 세계 각 글로벌 기업은 2005년에 들어서 페이스북, 유튜브 등을 통해 수많은 데이터 사용자가 생겨나고 있음을 깨닫기 시작했는데요, 바로 그 해에 빅 데이터 세트를 저장하고 분석할 목적으로 생성된 오픈소스 프레임워크인 Hadoop이 등장했습니다. 

Hadoop과 같은 오픈소스 프레임워크의 개발은 빅 데이터의 증가에 중요한 역할 하게 되었는데요, 왜냐하면 오픈소스 프레임워크를 활용하면 빅 데이터를 더 쉽게 활용할 수 있고 보관 비용도 더 저렴하기 때문이었죠. 사용자들은 여전히 엄청난 양의 데이터를 생성하고 있지만, 데이터를 만들어내는 것은 사실 인간만이 아니라는 것도 아시나요?

IoT가 등장하면서 점차 많은 수의 객체와 장치가 인터넷에 연결되어 고객 사용 패턴과 제품 성능 관련 데이터를 수집하고 있는데요, 여기에 머신러닝이 등장하면서 데이터의 양이 증가했어요. 이런 식으로 빅 데이터는 발전해 왔지만, 빅 데이터가 가진 유용성은 아직 맛보기에 불과해요. 클라우드 컴퓨팅은 빅 데이터의 잠재력을 그 어느 때보다 더 확장시키고 있습니다. 클라우드는 유연한 확장성을 제공하므로, 개발자들은 애드혹 클러스터를 활용해 데이터 하위 집합을 테스트할 수 있습니다.

 

 

빅데이터 예시 이미지2

 

 

빅데이터의 출현 배경

첫 번째 이유로 CPU, 메모리, 저장장치와 같은 하드웨어 장비 가격이 낮아져서 다량의 정보를 저장 및 처리하는 비용이 싸졌지 때문이에요. 두 번째 이유로는 오픈 소스 기술의 발전인데요, 오픈 소스의 한 가지 예로 R에 대해 여러분 알고 계시나요? 대용량 비정형 데이터를 빠르게 처리하고 결과를 얻어, 통계 툴인 R를 이용해서 통계 함수 처리 및 데이터 시각화를 보다 쉽게 할 수 있게 되었어요. 세 번째는 데이터에 관심을 갖게 되었고, 그 쌓여 있는 데이터에서 비즈니스적인 의미를 찾으려는 여러 시도 때문이에요. 마지막 이유는 실제 이런 데이터에서 가치를 찾아서 활용한 사례가 여러 세계적인 기업들에서 나타나고 있기 때문이에요. 구글, 마이크로소프트, 페이스북 등 여러 기업에서 빅데이터를 이용해서 비즈니스적 가치를 찾아내고 실제 사업에 적용하고 있습니다.

 

 

 

빅데이터의 특징


빅데이터의 특징은 크게 3가지로 말할 수 있는데요, 크기(Volume), 속도(Velocity) 그리고 다양성(Variety)이라고 할 수 있어요. 크기(Volume)는 일반적으로 수십 테라바이트 또는 수십 페타바이트 이상 규모의 데이터 속성을 의미하고요, 속도(Velocity)는 다량의 데이터를 신속하게 처리하고 분석할 수 있는 속성을 말해요. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되기 때문에 이를 실시간으로 저장, 수집, 분석 처리가 가능한 성능을 의미해요. 다양성(Variety)은 여러 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있어요.

 

빅데이터 특징 예시 이미지

 

 

빅데이터 중요 핵심 기술


빅데이터 처리 기술은 Divide and Conquer 처리 방식이라 할 수 있습니다. 즉 이것은 다량의 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말하는데요, 빅데이터의 데이터 처리란 여러 개의 작은 연산으로 나누고 이를 취합하여 질문(문제)에 대해 하나의 결과로 만드는 것이라 할 수 있어요. 대용량의 데이터를 처리하는 방식 중에 가장 널리 알려진 것은 아파치 하둡(Apache Hadoop)과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크이에요.

 

<빅데이터 환경의 특징>

구분

기존

박데이터 환경

데이터

정형화된 수치자료 중심

비정형의 다양한 데이터

문자 데이터(SMS, 검색어)

영상 데이터(CCTV, 동영상)

위치 데이터

하드웨어

고가의 저장장치

데이터베이스

데이터웨어하우스

클라우드 컴퓨팅 등 비용효율적인
장비 활용 가능

소프트웨어/ 분석 방법

관계형 데이터베이스

통계패키지

데이터 마이닝

머신러닝

오픈소스 형태의 무료 소프트웨어

Hadoop, NoSQL

오픈 소스 통계솔루션(R)

텍스트 마이닝(Text Mining)

온라인 버즈 분석(Opinion Mining)

감성 분석(Sentiment Analysis)

 

 

빅데이터 활용사례 3가지!

 

첫째, 여러분 구글의 플루 트렌드에 대해 아시나요?  이 역시 빅데이터를 활용한 대표적인 사례 중에 하나인데요, 보통 사람들은 감기에 걸리면 병원 약국에 가기 전, 감기 또는 독감 같은 단어를 인터넷으로 검색하는데요, 구글은 이러한 점에 착안해서 2008년부터 검색 정보와 더불어 위치를 기반하여 미국의 감기 바이러스 확산 상황을 알려주는 서비스를 제공 중에 있어요. 이 플루 트렌드는 ‘감기’나 ‘독감’과 같은 검색 빈도가 높은 지역을 지도에 표시 함으로써 독감의 확산을 쉽게 파악할 수 있도록 시각화해서 제공하고 있습니다. 또한, 대부분의 보건 기구는 일주일에 한 번만 예상 수치를 업데이트하고 있지만, 구글 플루 트렌드는 18개 국가를 대상으로 매일 업데이트하여 제공하고 있습니다.

 

둘째, 여러분 아마존의 책 배송 예측시스템에 대해 들어보신 적이 있나요? 북 매치를 시작으로 아마존의 개인별 맞춤 기능이 점차 발전하여, 일반 상품에도 고객별 맞춤 추천 기능까지 올 수 있게 되었는데요, 그동안 축적해온 고객 데이터를 바탕으로, 빅데이터를 통해 고객들의 구매 패턴을 읽어서 미리미리 그 고객이 살만한 물건들을 사는 곳 근처에 구비를 해두어서 고객이 그 물건을 찾을 때 빠르게 받아볼 수 있도록 하는 것입니다.

 

셋째, 패션 브랜드 기업인 자라(ZARA)도 빅데이터를 분석하여 활용하고 있는데요, 이 기업의 경우 여러 상품을 소량 생산하는 것을 마케팅 판매 전략으로 삼고 있어요. 보통 패션 브랜드의 상품 종류에 비해 거의 2배 이상의 종류를 생산하는데요, 또한, 오더부터 생산, 매장에 입점할 때까지 단 6주 이내로 걸린다고 해요, 그렇기 때문에 수요 예측과 매장 별 재고 산출, 
상품별 가격 결정, 운송까지 실시간으로 파악해야 할 필요가 있었고, 이를 위해 MIT 대학교 연구팀과 연계해 빅데이터를 활용하는 재고관리 시스템을 개발해서 활용 중입니다.

Posted by kfreeman98 :