본문 바로가기

Repositorium/IT

빅데이터의 정의와 활용사례

 

지난 10여 년간 기업은 데이터가 기업의 중요 자산임을 인식함에도 이를 실제 경영에 활용하는 사례는 극히 제한적이었다. 그 동안 기업들은 데이터를 활용하기 위한 방안으로 다양한 솔루션을 구축하였으나 실제로 경영에 효과적으로 활용되지는 못했다.

 

시장조사기관인 포레스터리서치에 따르면 기업들의 데이터 활용률은 5% 미만으로 기업활동을 통해 생성된 데이터의 95%가 사장된다고 지적한다. 그러나 최근 들어 이러한 추세는 바뀌고 있다. 바로 빅데이터 시장이 부상하고 있기 때문이다.

 

 

 

 

 

이번 글에서는 정보통신 분야의 최대 화두 중 하나인 빅데이터에 대하여 알아보겠다.

 

 

 

빅데이터란?

 

빅데이터는 저장되지 않았거나 저장되더라도 분석되지 못하고 버리게 되는 방대한 양의 데이터를 말한다.

 

실제로 빅데이터가 스마트사회에서는 매우 많이 발생하고 있는데, 이러한 빅데이터를 분석하여 의미 있는 지식을 생성할 수 있다. 그리고 빅데이터를 분석하여 자원을 절감하며 범죄율을 낮추고 미래를 예측한다면 매우 의미 있는 일이라 하겠다.

 

 

이러한 빅데이터는 V4로 요약되는 몇 가지 특성을 가지고 있다.

 

첫째, 빅데이터의 빅(Big)이 의미하듯이 먼저 규모(Volume)이다. 즉 데이터의 규모가 크다는 특징이다.

 

둘째, 빅데이터의 데이터 종류는 다양하다. 이런 다양성(Variety)은 로그기록, 소셜, 위치, 현실데이터, 멀티미디어 등 다양하다.

 

예를 들면, 기업의 경영활동에서 매일 기록되는 막대한 데이터 역시 빅데이터의 한 종류이며, 다양하게 발생하는 휴대 전화나 자동차 네비게이션 시스템에 기록되는 이용자의 위치 정보나 신용 카드 회사가 처리하는 거래 기록, 웹사이트에 입력되는 검색어 등도 빅데이터의 종류이다.

 

셋째, 빅데이터의 구조는 복잡하다. 복잡성(Complexity)이 특징인 빅데이터는 구조화되지 않은 데이터, 데이터 저장방식의 차이, 중복성 문제 등으로 데이터 관리 및 처리가 복잡화되고 그에 따른 심화된 기술을 요구하게 된다.

 

넷째, 빅데이터 분야에서 중요한 기술적 요소 중 하나는 속도(Velocity)이다. 빅데이터는 실시간으로 발생하는 데이터와 이를 활용하기 위해서는 데이터 처리 및 속도가 매우 중요하기 때문이다.

 

 

 

빅데이터의 활용사례

 

현재 빅데이터는 산업 전반에 걸쳐서 매우 다양하게 활용되고 있다.

 

미국의 오바마 대통령 선거 시 SNS 분석을 통한 예측과 2011년 서울시장 선거에서 박원순 서울시장 당선을 정확히 예측한 것은 빅데이터 활용의 좋은 사례이다.

 

 

첫 번째, 빅데이터 활용사례는 구글의 미국 내 독감발생추이를 예측한 경우이다.

 

미국 질병관리국의 인플루엔자 관리국 소속 역학예방팀은 독감환자의 추이를 추정하기 위해 3000여 개 진료소, 3000여명의 외래 진료환자의 진단 기록을 122개 도시의 인구통계사무소, 각 주 보건국 관계자들로부터 자료를 모았다. 이를 위해 질병관리국은 많은 시간과 비용이 투자되었다.

 

 

 

 

 

그러나 구글 트랜드에 독감을 검색어로 입력하면 위 사진과 같은 추이를 볼 수 있는데 이는 실제로 미국 질병관리국이 분석한 자료와 매우 비슷한 결과임을 알 수 있다. 따라서 굳이 많은 시간과 비용을 들여 추이를 집계할 것이 아니라 빅데이터를 통한 분석이 훨씬 효과적임을 알 수 있다.

 

 

다음의 사례는 보다 실생활에 밀접한 경우로 점포를 내기 가장 좋은 전철역을 찾기 위해 빅데이터를 활용하였다.

 

유원지와 가까운 A 전철역 앞에 매장을 낸 프랜차이즈 1호점은 높은 매출 성과를 보이고 있다. 따라서 A 전철역 앞과 비슷한 환경을 가진 곳에 2호점을 내려고 한다. 어는 역 앞이 좋을까?’

 

예전 방법으로 접근하려면 모든 역 앞에서 승하차 기록을 일제히 조사하는 수 밖에 없으며 이러한 방식은 많은 시간과 비용이 든다. 그러나 일본의 히타치 제작소에서는 전철 승차 카드인 스이카의 기록을 활용하였다.

 

 

 

 

 

현재 약 400만 장의 스이카 카드가 발행되어 일본 수도권의 약 1800개 역에서 사용되고 있으며 스이카 카드를 사용하는 이용객의 수, 나이, 성별, 시간대 등 기록이 1800여개의 역을 통과할 때 마다 저장되고 있다.

 

그리고 저장된 기록을 활용해 역을 통과한 목적이 외출인지 귀가인지를 컴퓨터로 추정하여 모든 역의 특성을 분석할 수 있다. 그러면 과거와 같이 막대한 시간과 비용을 들이지 않아도 빅데이터를 활용해 원하는 결과를 얻을 수 있다.