빅 데이터, 세상을 이해하는 새로운 방법(1)

  • 서진영 경영·철학박사

    입력 : 2015.04.06 10:27

    1) 2004년과 2013년의 차이


    (가) 지금 이 순간의 내 기분


    * 불과 몇 년 전인 2004년의 웹(Web)은 지금과 많은 것이 달랐다. 트위터도 없었고 페이스북의 마이스페이스는 걸음마 단계였다. 블로그 역시 소수의 전유물이었다.


    하지만 시간이 지나면서 웹은 ‘인간적인 공간’으로 빠르게 변모했다. 사람들이 올린 무수한 정보로 넘쳐 나는 공간으로 탈바꿈한 것이다.


    * 'We Feel Fine'을 만든 컴퓨터 과학자, 조나단 해리스(Jonathan Harris)는 수많은 사람들이 웹을 '자기 자신의 이야기를 하고 싶어 하는 공간'으로 인식한다는 사실을 눈여겨봤다.


    종교, 언어, 민족, 인종, 성(性), 교육, 빈부의 격차 등 사람들 사이에 존재하는 수많은 차이점에도 불구하고 한 가지 변하지 않는 공통점이 존재한다는 사실을 깨달았기 때문이다. 바로 스스로를 표현하고 싶어 하는 욕구였다.


    이는 인간의 아주 오래된 기본적인 욕구이다. 하지만 무언가를 말하고 싶어 할 때마다 항상 곁에 누군가가 있어 줄 수는 없다. 표현하고자 하는 욕구와 들어 줄 사람 사이에는 언제나 불균형이 존재한다. 사람들은 인터넷에서 자신들의 욕구와 불균형을 해소할 공간을 찾는다. 그리고 무수히 많은 '디지털 발자국', 즉 흔적을 남긴다.


    - 조나단 해리스는 이 같은 흔적을 분석해 그 흔적의 주인이 어떤 사람인지 알아내는 프로그램을 만들었다. 무엇을 느끼고 어떤 생각을 하는지, 그 사람의 어제와 오늘이 어떻게 다른지, 그리고 내일은 어떻게 달라질지에 관해 답을 구하기 위해서였다.


    - 이처럼 직접 만나보지 않아도 어떤 사람의 홈페이지나 페이스북 등과 살고 있는 장소나 소지품만으로 그 사람의 내면 특성을 파악할 수 있는데, 이를 '스눕'이라고 한다. CWPC – 2010년 7월 4주차 서평 [스눕] (샘 구슬링 지음, 황상민 감수, 한국경제신문, 2010.)에서 조금 더 자세히 살펴보자.


    * 상대방을 직접 만나지 않고 단지 생활하는 장소나 소지품을 보는 것만으로 그 사람에 대해 알 수 있는 방법을 '스누핑(snooping)'이라고 한다.


    스눕, 즉 snoop은 기웃거리다, 염탐하다의 뜻이다. 우리가 잘 아는 강아지 스누피 (snoopy)가 이 스눕의 형용사형인데, '기웃거리며 돌아다니는, 이것저것 캐묻는, 참견하기 좋아하는'이란 뜻을 가지고 있다.


    하지만 이 책에서 스눕은 몰래 훔쳐본다는 의미가 아니다. 어떤 사람이 살고 있는 장소나 소지품만으로 그 사람의 내면 특성을 파악한다는 뜻이다.


    예를 들어 데이트를 주선해주는 회사들이 가입자들에게 자기가 좋아하는 책, 영화나 음악 등을 적으라고 하는 이유는 이런 내용들이 그 사람의 다양한 관심사, 가치관과 경향을 효과적으로 파악할 수 있다고 생각하기 때문이다.


    * 그런데 다수의 사람들을 대상으로 만든 홈페이지, 페이스북, 트위터 등은 친구들에게 보여주려고 만든 것보다 더 분명한 자아정체성 주장을 보여준다. 웹사이트는 사람들에 대해 알 수 있는 엄청나게 훌륭한 단서이다.


    개인 홈페이지를 검색하면 얼마나 많은 정보를 찾아낼 수 있는지에 대해 깜짝 놀랄 것이다. 예를 들어 이 책에서 연구한 그리스틴이라는 여성의 홈페이지를 예로 들어보면, 거기에는 그녀가 흥미를 가지는 여가활동을 포함해 정치적 신념, 자기가 쓴 시, 지속적인 심경 변화의 기록, 현재 사회 상황과 개인적인 사건들에 대한 다양한 수기들의 모음, 거기에 (몇 대에 걸친) 가족사진, 휴가 때 찍은 사진, 애완동물 사진, 정원, 주방, 연인, 여행한 장소는 물론, 관람한 영화, 읽은 책, 좋아하는 뮤지션에 이르기까지 그녀에 대한 수많은 정보가 포스팅되어 있다.


    * 여기에 거대한 시스템이 도입되면서 대중들의 방향성과 선호도, 그리고 자료를 분석하기 시작한 것이 빅데이터이다. 그렇다면 빅데이터 분석으로 무엇을 할 수 있을까? 그전에 우리는 빅데이터 이전의 데이터 분석이주는 효용을 먼저 알아야한다. 영국의 콜레라 확산방지 사례를 먼저 살펴보자.


    2) 데이터 분석이 주는 효용


    (가) 사람을 살리는 데이터 분석


    * 런던 소호의 한 광장에는 워터 펌프(Water Pump)가 있다. 이곳은 최초로 데이터 분석에 지도가 사용된 곳이다.


    - 19세기 말 런던은 급격한 인구 유입으로 거리 곳곳이 오물과 쓰레기로 넘쳤다. 런던시가 오물 구덩이를 만들어 대처에 나섰지만 역부족이었다. 런던시는 궁여지책으로 오수와 오물을 템스 강에 내다 버린다. 이 때문에 런던 시민들이 마시는 물도 오염되고 만다.


    그리고 런던 곳곳에서 콜레라가 발생했다. 1854년 8월 31일, 영국 역사상 가장 심각한 콜레라가 런던 소호에서 발병한다. 불과 사흘 만에 127명이 숨졌다. 하지만 시간이 지나도 콜레라는 잦아들지 않고 더욱 확산됐다. 열흘이 지난 9월 10일, 사망자는 500명으로 늘어난다. 일부 지역에서는 사망률이 12.8%까지 올라갔다.


    결국 616명이 콜레라로 목숨을 잃었다. 당시 사람들은 런던의 오염된 공기 때문에 콜레라가 창궐했다고 믿었다.


    * 그런데 이 때 의사였던 존 스노우(John Snow)는 콜레라가 창궐한 원인을 알고 싶었다. 콜레라가 발생한 소호 지역의 주택을 직접 찾아다니며 정보를 모았다.


    그리고 소호 지역이 그려진 지도 위에 콜레라로 사망한 사람들의 집을 표시했다. 그러자 당시 이 지역 주민들이 사용하던 워터 펌프를 중심으로 사망자들이 모여 있다는 사실을 발견했다.


    위키피디아(Original map made by John Snow in 1854)


    - 이를 통해 콜레라가 공기를 통해 확산된 것이 아니라 당시 워터 펌프를 사용한 사람들에 의해 확산된 사실이 밝혀졌다. 런던시는 펌프를 폐쇄했고 사람들은 나았다. 지도 위에 표시된 작은 정보들이 기대하지 않았던 결과를 불러왔다. 그리고 사람들의 삶이 바뀌었다.


    (나) 나이팅게일과 데이터


    * 백의의 천사로 알려진 플로렌스 나이팅게일(Florence Nightingale)은 램프를 든 숙녀로도 유명하다.


    하지만 나이팅게일이 열정적인 통계학자였다는 사실은 잘 알려지지 않았다. 그녀는 9세 때부터 자료를 수집했다. 과일과 채소의 수를 헤아려 표준 형식의 테이블로 맞춰 정리하기를 좋아했다. 9세 때 이미 첫 통계 테이블을 완성한다.


    - 이후 1854년 러시아와 연합국 간에 '크림 전쟁'이 일어난다. 당시 런던에서 간호사로 일하고 있던 나이팅게일은 영국군 병사들을 간호하기 위해 전쟁터인 크림 반도로 향했다. 그리고 그곳에서 끔찍한 상황을 목격하게 된다. 너무나 많은 영국 군인들이 전쟁터에서 처참하게 죽어가고 있었다.


    하지만 더 끔찍한 건 야전 병원이었다. 나이팅게일의 눈에 영국군 부상병들을 치료하는 야전 병원은 세균이 들끓는 소굴이나 다름없어 보였다. 부상병들이 입고 있는 옷이며 침대 시트는 빨지 않아 피범벅이 된 채로 그냥 사용되고 있었고, 침대도 부족해 부상병들은 오물로 뒤덮인 짚을 깔고 누워야만 했다.


    부상병 치료에 필요한 붕대나 치료 도구 역시 보급품 부족으로 몇 번이고 재사용되고 있었다. 병에 걸려 죽는 병사들이 자꾸 늘어만 갔다. 전쟁터보다 병원에서 더 많은 영국군이 죽어 나가는 것처럼 보였다.


    * 나이팅게일은 죽은 병사의 수를 세기 시작했다. 전쟁터와 병원에서 사망하는 영국군의 수를 기록했다. 병원으로 후송된 부상병마다 입원 내용, 부상 정도, 질병 및 사망 여부 등에 관한 내용을 매일 상세히 기록해 나간다.


    이렇게 해서 2년여에 걸친 영국군 사망자 데이터가 만들어졌다. 나이팅게일은 데이터를 가지고 차트를 만들었다. 그러자 보이지 않던 문제점이 보였다.


    www.royal.gov.uk/output/Page3943.asp


    * 그림에서 부채꼴의 가장 바깥쪽 구간은 2차 감염으로 사망한 군인들이다. 죽음을 막을 수 있었던 부상병들의 숫자인 셈이다. 병원의 위생을 청결하게 하고 좋은 음식, 좋은 약을 제공했더라면 죽지 않아도 될 병사들이었다.


    제일 안쪽 구간은 부상으로 사망한 군인들이다. 야전 병원에서 2차 감염으로 사망한 숫자보다 적다. 나이팅게일이 만든 차트는 결국 비위생적인 환경이 감염을 증폭시켜 훨씬 많은 군인이 사망하고 있음을 보여줬다.


    전쟁에서 사망하는 군인들의 패턴이 세상에 드러났다. 영국은 데이터와 통계의 힘을 믿었다. 나이팅게일의 보고서를 본 영국 정부는 야전 병원의 위생을 개선했다.


    부상병들의 침대를 청소하고 수술 도구를 소독하게 했다. 그리고 부족한 의료 도구와 약품을 공급했다. 그러자 야전 병원의 사망률이 큰 폭으로 내렸다. 42%에 달하던 부상병들의 사망률이 2%대로 줄었다. 데이터를 통해 전쟁에서 사망하는 군인들이 획기적으로 줄었고, 사람들은 데이터들이 만들어 내는 통계의 힘을 확인했다. 데이터는 변화를 불러왔다.


    - 이렇게 작은 데이터들 즉, 간단한 통계로 인간의 생명과 역사를 바꾸어주는 것을 보니 빅 데이터에 큰 기대를 하게 된다. 어떻게 세상을 바꾸었을까? 먼저 빅 데이터를 활용한 의료분야부터 살펴보자.



    (다음 회에 계속)





    서평전문 PDF파일빅데이터, 세상을 이해하는 새로운 방법다운로드