빅 데이터, 세상을 이해하는 새로운 방법

      입력 : 2015.01.07 13:49 | 수정 : 2015.01.12 18:42



      * 빅 데이터 (big data), 말 그대로 큰 데이터이다. 큰 데이터란 의미가 무엇일까? 먼저 우리에게 익숙한 ‘데이터(data)에 대해 살펴보자. 

      - 사전적인 데이터의 의미를 살펴보면 데이터란 재료?자료?논거(論據)라는 뜻인 'Datum'의 복수형이다. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻하기도 한다. 컴퓨터에 입력하는 기호?숫자?문자를 말하며 그 자체는 단순한 사실에 불과하지만 컴퓨터에 의해 일정한 프로그램에 따라 처리되어 특정한 정보를 만들어 낸다.

      "데이터는 모든 것을 아우르는 용어입니다. 디지털 방식으로 우리가 기록할 수 있는 모든 것을 데이터라고 부를 수 있습니다. 저장하고, 꺼내서 분석하고 탐구할 수 있는 모든 것이 데이터입니다. 따라서 데이터가 무엇이냐는 측면보다 데이터로 무엇을 할 수 있는지가 더 중요합니다." - 제프리 히어(스탠포드대 교수) "어떤 것이든 디지털화되어 담기면 그게 데이터입니다. 과거에는 우리가 일상 속에서 나눴던 대화들이 그 순간 모두 사라졌습니다. 지금은 문자 메시지나 페이스북, 트위터처럼 우리가 나누는 대화들이 디지털화되어 플랫폼에 담기고 있습니다. 그게 데이터입니다. 우리가 던지는 말 한마디, 몸짓 하나까지, 모든 것들이 데이터가 되는 세상입니다." - 장영재(카이스트 교수)

      * 그런데 일이 터졌다. 그동안 구글이나 아마존, 월마트 같은 세계적인 기업들은 데이터에 기반한 비즈니스를 통해 천문학적인 돈을 벌어들이고 있다. 하지만 어느 날 뜻하지 않았던 문제에 봉착한다. 자신들이 수집, 저장, 처리, 분석해야 할 데이터의 양이 어느 순간 너무 많아진 것이다. 그동안 해 왔던 방식으로는 더 이상 고객들을 만족시킬 수 있는 서비스를 유지할 수 없게 됐다. 예전과는 근본적으로 다른 새로운 차원의 데이터 처리 및 접근 방식이 필요했다. 이들은 이 방식을 ‘빅 데이터’라 이름을 붙였다.

      * 빅 데이터는 문자 그대로 대용량의 데이터를 의미한다. 하지만 용량만 크다고 해서 빅 데이터라고 부르지는 않는다. 1. 용량과 2. 다양성, 3. 속도라는 3차원적인 특징을 모두 고려할 때 빅 데이터에 대한 올바른 접근이 가능하다.

      - 먼저 용량에 관해 살펴보면, 사람들이 부지불식간에 만들어 내는 데이터는 곳곳에 널려 있다. 수많은 웹 페이지를 돌아다니며 필요한 정보를 자동으로 수집해 오는 크롤러(Crawler)만 있으면 전 세계 어느 곳에서든 필요한 정보를 모을 수 있다. 설문지나 전화 조사 요원을 크롤러가 대신하게 된 것이다. 전통적인 조사 방법의 규모가 많아야 수천 건이라고 한다면 빅 데이터의 활용 규모는 수억 건에서 수십억 건에 이르는 경우가 많다. 예전에는 상상할 수 없었던
      규모의 정보를 필요에 따라 활용할 수 있는 시대가 됐다.

      * 세 번째인 속도에 대해 살펴보면, 무엇보다 빅 데이터가 불러온 가장 큰 변화는 사회 곳곳에서 일어나고 있는 현상들을 실시간으로 분석할 수 있게 됐다는 점이다. 예전 같으면 소비자들의 반응을 확인하고 대처 방법을 세우는 데 몇 달이 걸렸다면 지금은 컴퓨터 처리 기술의 발달에 힘입어 실시간에 가깝게
      분석하고 대처할 수 있는 수준에 도달했다. 세월의 속도와 세상의 변화가 빨라졌다. 삼성전자가 최근 출시한 신형 스마트폰에 대해 혹은 현대자동차가 출시
      한 소나타를 타 본 사람들이 무슨 이야기를 하는지, 불만은 무엇인지 등에 대한 많은 양의 정보가 인터넷에 쌓이고 있다. 모두 자발적으로 혹은 무의식적으로 생산된 순도 높은 데이터들이다. 사람들이 소나타를 좋아하는지 정숙성이나 파워 면에서는 어떻게 생각하는지 전문가와 일반인들의 솔직한 생각을 광범위하게 읽어 내고 활용할 수 있게 된 것이다. 주어진 몇 개의 보기 가운데서 답을 찾거나 사회적인 인식이나 평가를 의식해 진심과는 다른 답변을 하는 기존 조사 방식의 한계와 문제점들을 해결할 수 있게 됐다.

      * 그런데 왜 이런 빅데이터란 용어가 등장한 것일까? 사실 지구 상에 존재하는 정보 가운데 90%가 지난 2년 동안 만들어졌다. 그런데 대부분 구조화되지 않은 형태(Unstructured Information)로 쌓이고 있다. 페이스북이나 트위터, 블로그나 유튜브, 인터넷 웹페이지 등에 남기는 짤막한 댓글이나 사진, 동영상, 음악 같은 것들이다. 지구상에서 생산되고 있는 데이터의 80%가량이 이런 형태로 생산되고 있다. 이 가운데 현재 컴퓨터 시스템으로 처리되고 있는 정보는 20%에 불과하다. 우리가 사용하는 휴대전화는 매일 수십 억장의 사진을 찍고 있다. 이 가운데 불과 10%만 외부로 전송돼 페이스북 같은 SNS에 게시되고 있다. 하지만 그 양은 기하급수적으로 증가하고 있다. 휴대전화에 내장된 지도나 GPS 칩을 활용한 데이터 소비량이 지구를 매일 80바퀴 도는 양과 맞먹는
      다. 매일 엄청난 양의 데이터들이 전송되고 소비되고 있다. 지금까지 쌓여 온 데이터보다 지난 2년간 쌓인 데이터가 훨씬 더 많다. 그리고 그 추세는 더욱 빨라지고 있다. 우리는 이런 데이터들을 활용해 흥미로운 일들을 할 수 있다. 사람들의 숨겨진 생각을 읽거나 히트 맵(Heat Map)을 만들고 사람들이 걷거나 운전하거나 모이는 장소 같은 정보들을 알아낼 수 있다. 사람들이 필요로 하는 것이 무엇인지 찾거나 주변의 교통 상황을 파악하고 도시 개발에 필요한 정보 등에 활용할 수 있다. 다양한 패턴을 읽어 실행 가능한 지식이나 정보로 바꿀 수 있다. 매일 생산되고 있는 방대한 데이터가 있기 때문에 가능한 일이다.
      * 실제로 세상을 바꾼 사례를 보자. 202년 [마이너리티 리포트]라는 영화가 개봉됐다. 2054년 워싱턴을 배경으로 한 이 영화는 범죄가 일어날 장소와 범인, 시간을 예측해 검거하는 내용을 다루고 있다. 영화에 보면 이런 장면이 나온다. 주인공이 누명을 쓰고 도망가는데 지하철에서 광고판이 주인공을 알아본다. 그리고 주인공이 휴가를 다녀왔는지, 휴가지로는 어디가 좋을지를 알아맞힌다. 생체 인식 기술을 활용한 미래 사회의 모습이 영화 속에 그려져 있다.
      사실 영화가 개봉될 당시만 해도 아주 먼 미래의 이야기로만 여겼다. 하지만 최근에 우리 주위에서 일어나고 있는 많은 일들이 영화 [마이너리티 리포트] 속의 이야기를 닮아 가고 있다는 걸 알 수 있다.

      * 어떻게 구현되고 있을까? 바로 스마트 폰을 통해서이다. 스마트폰을 들고 길을 가다 보면 문자가 온다. 전방 30m 앞에 있는 어떤 음식점이 30% 할인을 한다는 내용이다. 이건 기초적인 모델이다. 최근에는 광고 문자의 내용이 더욱 정밀해지고 있다. 전방 30m 앞 어떤 음식점에서 해당 스마트폰 사용자가 좋아하는 쌀국수집이 30% 할인을 한다는 내용 같은 것이다. 스마트폰 사용자는 자신이 휴대 전화에다 이런 내용을 설정한 적이 없다. 그럼 이런 광고 문자는 어떻게 만들어져 전송된 것일까? "스마트폰의 사용자가 스마트폰을 들고 쌀국수집에 자주 갔었고 페이스북이나 트위터 등을 통해 쌀국수집에 관한 사진이나 글을 자주 올렸던 것입니다. 생활하면서 다른 음식점 메뉴보다는 쌀국수에 관한 데이터를 더 많이 생산했던 것입니다. 이런 데이터를 분석해 마케팅 담당자는 해당 사용자가 쌀국수집에 자주 간다는 사실을 알게 되고 '맛있다', '맛없다'와 같은 SNS의 글을 통해 쌀국수집에 관한 기호와 성향까지 알아낼 수 있습니다." - 강학주(이스토리랩 소장)

      * 그렇다면 우리의 삶을 좀 더 편하게 만드는 것도 중요하지만 어느 때보다 많은 데이터를 좀 더 나은 곳에 활용할 수 있는 방법은 없을까?
      - 캐나다 온타리오 대학의 연구진은 방대한 데이터를 미숙아들의 생명을 살리는 데 활용하고 있다. 오스트리아 잘츠부르크 대학의 유로 바이넷 교수는 눈으로는 볼 수 없는 거대 도시와 사람의 움직임을 데이터의 분석을 통해 더 빠르게 이해하고 효율화할 수 있는 길을 열었다. 지금 이 순간에도 세계 곳곳에서 수많은 분석가들이 교통사고로 인한 사상자를 줄이고 범죄를 예방하고, 대형 재난으로부터 더 많은 사람들을 더 빨리 구조할 수 있는 방법을 찾기 위해 데이터를 활용하고 있다. 어느 때보다 많아진 데이터가 세상을 바꾸는 데 활용되고 있다.

      * 이 책은 KBS ‘시사기획 창’을 통해 두 차례에 걸쳐 방송된 [빅 데이터, 세상을 바꾸다]와 [빅 데이터, 비즈니스를 바꾸다]에 미처 담지 못했던 이야
      기들을 담고 있다.

      *[빅 데이터, 세상을 이해하는 새로운 방법 : 세상을 바꾸고 나를 변화시키는 보이지 않는 것의 힘] 박순서 지음, 레디셋고, 2013.

      < 지은이 ‘박순서’에 대하여 >





      첨부파일빅 데이터, 세상을 이해하는 새로운 방법 다운로드
      • CP