빅 데이터, 세상을 이해하는 새로운 방법(4)

  • 서진영 경영·철학박사

    입력 : 2015.05.06 13:41

    6) 공공부분의 빅데이터 이용


    (가) 범죄를 예측하는 빅데이터


    * 저녁 8시 50분, 험상궂게 생긴 한 남성이 길모퉁이에 차를 세우고 슈퍼마켓을 향해 바쁜 걸음을 재촉한다. 슈퍼마켓 계산대에는 점원 혼자 손님을 기다리고 있다.


    슈퍼마켓에 다다른 남성이 허리춤에 숨겨 둔 권총을 꺼내려는 찰나 미리 도착해 있던 경찰과 눈이 마주친다. 경찰은 이 남성에게 쓴웃음을 지어보인다. 슈퍼마켓을 털려고 왔던 권총 강도는 황급히 발길을 돌려서 왔던길로 되돌아간다.


    - 도시 안에서 일어나는 각종 강력 범죄 데이터를 광범위하게 분석해 실시간으로 활용할 수 있다면 이처럼 범죄가 일어날 시간과 장소를 예측해 경찰을 해당 장소에 미리 배치하는 방법으로 범죄를 사전에 예방할 수 있을 것이다.


    범죄가 자주 일어나는 시간과 장소, 요일, 특정 범죄가 자주 발생하는 거리나 건물의 특징, 심지어 날씨와의 상관관계까지 찾아낼 수 있다면 이런일이 가능한 날이 오지 않을까?


    * 방대한 데이터를 분석해 범죄를 미리 예방하는 경찰의 모습이 먼 미래의 일일까? 그렇지 않다.


    - 미국에서는 현재 이 같은 일이 벌어지고 있다. 로스앤젤레스 경찰(LAPD)은 LA 지역에서 실시간으로 업데이트되는 범죄 데이터를 분석해 범죄 발생 가능성이 높은 지역(Hot Spot)을 찾아내는 컴퓨터 분석 프로그램(Predictive Policing)을 활용, 범죄 발생을 획기적으로 줄이고 있다. 범죄 발생 가능성이 높은 시간대나 장소에 경찰을 배치해 순찰을 강화하는 방법으로 범죄 발생 가능성과 범죄 시도를 차단하는 것이다.


    - 범죄 예측 프로그램(Predictive Policing)은 수많은 재난 정보를 분석해 LA 지역에서 발생하는 지진과 여진의 정확한 위치와 규모를 사전에 파악하기 위해 개발된 컴퓨터 프로그램을 활용하고 있다. 과거 지진 데이터와 실시간 업데이트되는 데이터를 바탕으로 지진이 일어날 지점을 예측하듯 범죄가 일어날 장소를 사전에 예측하는 것이다.


    LA 지역에서 일어나는 범죄의 65%는 차량 등에서 물건을 훔치는 절도이다. LA 경찰은 차량 절도나 가정집 침입 도난 사건이 일어났던 시간이나 장소, 거리나 주택의 특징 등이 담긴 관련 데이터를 기반으로 특정 시간과 특정 장소의 범죄 가능성을 시시각각 분석하여 순찰차에 장착된 컴퓨터 모니터로 전송한다.


    - 실시간으로 전해지는 범죄 예측 정보를 바탕으로 해당 지역의 경찰은 훨씬 효율적인 방법으로 범죄를 예방할 수 있다. 범죄가 발생한 후 몇 명의 범인을 검거하느냐보다는 범죄를 사전에 예측하고 차단하는 것이 훨씬 중요하고 가치 있는 일이다.


    데이터의 힘 덕분에 LA 지역에서는 지난 한 해 동안 절도 사건이 33% 감소했다. 폭력 사건도 21% 줄었다. 9년 연속 범죄 발생이 줄어드는 보기드문 성과도 얻었다. 한정된 경찰 장비와 인력, 예산으로는 절대 거두기 어려운 성과였다.


    (나) 관광 설계를 도와주는 빅데이터


    * 세계적으로 수많은 도시와 지역들이 관광 산업을 활성화하기 위해 천문학적인 돈을 쓴다. 관광객을 유치하기 위해 갖가지 묘안들을 내놓으며 관광객들의 마음을 사로잡으려 노력하고 있다. 그러려면 관광객들의 마음이나 특성을 먼저 알아야 할 것이다.


    나라별로 특성이 어떻게 다른지, 주로 어디를 가는지, 어떤 음식을 선호하는지와 같은 정보들이 바로 그것이다. 그렇다면 이 같은 정보들을 어떻게 얻을 수 있을까?


    * 요즘에는 어떤 도시나 다른 나라를 여행하는 사람치고 카메라를 휴대하지 않는 사람이 거의 없다. 굳이 DSLR 카메라가 아니더라도 스마트폰에 장착된 카메라 앱(App)을 통해 특이한 볼거리나 풍경, 먹을거리, 기억하고 싶은 순간 등을 담는다.


    이렇게 찍은 사진 가운데 상당수의 사진이 플리커나 페이스북, 트위터 등을 통해 공개되고 공유되고 있다. 사람들이 올린 사진의 양은 그야말로 엄청나다. 페이스북에만 하루 2억 5천만 장이 올라오고 있다. 플리커에도 1분에 1,000장이 넘는 사진이 올려 지고 있다.


    * 현재 플리커는 50억 장의 사진을 보유하고 있다. 이제 우리는 이렇게 많은 사진에서 시간과 공간 정보를 추출하고 조합해 새로운 경험을 할 수있는 기술이 있다. 그렇다면 이 기술을 활용하면 관광을 오는 사람들의 움직임이나 특성을 더 잘 이해할 수 있지 않을까?


    * 두 무리의 관광객들이 어떤 지역에 여행을 갔다고 해 보자. 한 팀은 미국에서 왔고 또 다른 팀은 이탈리아인 관광객들이다. 두 나라 관광객들이 각자 자기 나라 버스에 오르고 출발한다. 두 나라 관광객들은 해당 지역을 한 달간 돌아보며 즐겁게 지내고 돌아왔다.


    우리가 가진 정보라고는 이들이 미국과 이탈리아에서 왔고 한 달 동안 여행을 했다는 사실 뿐이다. 그렇다면 두 나라 관광객들에 대해 어떻게 하면 좀 더 많은 정보를 알아낼 수 있을까? 이들이 여행 동안 남긴 흔적들을 분석해 보면 되지 않을까?


    - 미국인과 이탈리아인 관광객들은 여행에 관한 취향이 확연히 다르다. 미국인 관광객들은 주로 도시 지역을 여행하는 데 반해 이탈리아인들은 시골 구석구석까지 찾아다닌다. 이들이 남긴 디지털 흔적들을 보면 이들이 어디서 왔고 어느 지역을 여행하고 또 얼마나 오래 머무르는지 알 수 있다.


    이들이 여행하면서 사진을 찍을 때마다 시간과 위치 정보가 기록되기 때문이다. 시간에 따른 이동 경로는 물론 이들이 어느 장소를 방문했는지, 다음 이동 장소는 어디인지까지 구체적으로 알 수 있다. 시간의 흐름을 따라가 보면 한 달 동안 이들 관광객이 지나간 이동 경로와 취향, 좋아하는 음식이나 여행지 같은 정보들이 보인다는 것이다.


    플리커에 올라온 사진만 가지고도 이 같은 정보들을 얻을 수 있다. 사람들이 일상적으로 하는 일 그리고 그것으로 인해 만들어지는 흔적들을 활용하면 의미 있는 정보들을 추출해낼 수 있다.



    * 도시를 관광한 14%만이 인근 지역도 관광을 한다. 스페인과 프랑스 관광객들은 여러 도시를 여행하지만 영국과 덴마크 관광객들은 한 도시에서 오래 여행하길 좋아한다.


    - 그렇다면 당일 여행을 몇 명이나 하는지와 같은 질문도 물을 수 있다. 혹은 도시 지역만 관광하는 사람들에게 중소 도시나 시골에 있는 관광지까지 가 보도록 자극할 방법은 없을까 같은 질문도 나올 수 있다.


    도시 지역을 방문한 14%의 관광객들은 인근 지역을 함께 방문했다. 당일 여행으로 다녀온 것이다. 스페인 관광객들과 프랑스 관광객들은 도시뿐아니라 주변 지역도 함께 여행하기를 좋아한다. 하지만 영국인들과 덴마크인 관광객들은 그렇지 않다. 이들은 주로 여행을 하는 동안 도시 지역에 머물기 좋아한다.


    * 이 같은 정보를 통해 우리는 사람들의 움직임과 생각을 관찰할 수 있다. 서로 다른 집단 간의 차이점도 발견할 수 있다. 이것은 데이터가 있기때문에 가능한 일이다. 데이터는 생각보다 쉽게 얻을 수 있다. 수많은 사람이 무의식중에 만들어서 공개하기 때문이다. 모두 자발적인 의지와 행동의 결과로 만들어지는 데이터들이다.


    * 빅 데이터를 활용해 우리는 많은 일을 할 수 있다. 흥미로운 실험도 가능하다. 관광뿐 아니라 교통, 안전, 도시 계획을 세우는 일까지 데이터는 활용될 수 있다.


    더 많은 정보를 가지고 보다 효율적이고 더 나은 결정을 내릴 수 있다. 빅 데이터가 없다면 인위적이고 이론적인 수준에 머무를 것이다. 빅 데이터가 있어서 점점 더 많은 일이 가능해지고 있다.


    (다) 아이티 지도를 만드는 미션


    * 2010년 1월 11일 4시 53분, 중앙아메리카 카리브 해의 섬나라 아이티의 수도 포르토프랭스 인근 지표면 아래 13km 지점에서 지진이 발생했다.


    북쪽의 지각판인 북아메리카판과 남쪽의 카리브판이 충돌하면서 150년 동안 쌓였던 에너지가 한꺼번에 분출되면서 규모 7.0의 강진이 일어난 것이다.


    이 지진으로 아이티 대통령궁과 국회 의사당 등 포르토프랭스의 주요 건물들이 대부분 붕괴했다. 병원과 감옥, 공항 같은 주요 시설들도 대부분 파괴됐다. 아이티 전체 인구의 1/3가량인 3백만 명이 피해를 입었다.


    사망자는 22만 명을 넘었고 부상자만 30만 명에 달하는 대규모 지진이었다. 아이티는 초토화됐다. 전 세계에서 구조대와 NGO가 파견됐다. 건물에 깔린 사상자 구조 작업을 위해서였다.


    - 하지만 포르토프랭스에는 변변한 지도가 없었다. 있는 거라곤 30~40년 전에 만들어진 것뿐이었다. 지도는 구조 작업에 필수적인 정보이다. 구조대는 당황했다. 도로와 건물이 처참하게 파괴돼 구조해야 할 사람들이 어디에 있는지 파악할 방법이 요원했기 때문이다.


    * 운이 좋게도 지진이 일어난 직후 'GeoEye사'가 위성 사진을 공개했다.


    오픈 소스 커뮤니티가 위성 사진을 활용할 수 있도록 허용하는 라이선스를 열어 주었다. 곧바로 세계 각지의 사람들이 위성 사진의 이미지들을 보고 지도를 만들기 시작했다. 세계 각지의 커뮤니티들이 포르토프랭스의 도로와 피난민들의 텐트가 있는 위치 등을 오픈 스트리트 맵에 빠르게 축적해 갔다.


    - 오픈 스트리트 맵은 세계 각지에 있는 수많은 사람의 자발적인 참여로 이루어지는 글로벌 지도 만들기 프로젝트이다. 물리적인 시공간의 제약을 뛰어넘어 전 세계 이용자들이 언제든 접속해서 수정할 수 있기 때문에 빠르게 업데이트가 이루어진다.


    초대형 지진으로 알아볼 수 없게 된 아이티의 지형뿐 아니라 병원, 구조대나 난민들의 위치를 파악하는 데 아주 중요한 역할을 했다. 세계인들은 이들을 크라이시스 매퍼(Crisis Mappers)라고 불렀다. 구조 작업에 난항을 겪고 있던 구조대에게 피난민 수용소의 위치뿐 아니라 구조 작업이 필요한 곳까지 갈 수 있도록 안내했던 지도는 이렇게 실시간으로 만들어졌다.



    * 매우 급한 상황에서 전 세계 사람들이 공유한 데이터가 하나 둘 모여 무너진 건물 밑에 깔린 인명을 구조하고 난민들에게 구호품을 수송하는 데 유용한 지도로 활용됐다.


    오픈 스트리트 맵을 통해 만들어진 아이티 지도는 GPS 전문 업체인 'Garmin사'의 내비게이션에서 구동됐다. 세계인들이 하나 둘 만들어 업데이트한 지도 데이터는 지금도 아이티 재건과 복구 작업에 활용되고 있다. 아이티 지진을 통해 수십, 수백만 개의 데이터가 모이면 불가능해 보였던 일도 가능하다는 사실과 빅 데이터의 가능성을 확인할 수 있었다.


    (라) 이상적인 공공 서비스를 위하여 빅데이터를 활용하라


    * 미국은 공공 서비스 영역에서 빅 데이터를 가장 잘 활용하는 나라로 꼽히고 있다. 탈세나 사기, 재정 낭비나 부당한 세금 지원 등을 막는데 빅데이터를 광범위하게 활용하고 있다.


    - 2010년 미국의 탈세 규모는 3,300억 달러에 달했다. 저소득층을 위한 의료 보장 총액을 훨씬 넘어서는 금액이다. 미국 정부의 재정에도 심각한 위협으로 작용했다. 미국 국세청은 문제를 해결하기 위해 빅 데이터를 활용해 탈세와 사기 범죄를 예방할 수 있는 시스템을 구축했다.


    이 시스템은 방대한 데이터로부터 이상 징후를 찾아내고 과거 데이터를 분석해 사기나 탈세 가능성이 있는 패턴을 예측해 내도록 설계됐다. 납세자의 계좌와 주소, 전화번호 등의 정보는 물론 페이스북이나 트위터로 범죄자 사이의 사회 관계망을 분석해 범죄 집단을 감시하는 데도 사용됐다.


    미국 국세청은 이 같은 방법으로 3,450억 달러에 이르는 세금 누락과 불필요한 세금 환급을 막을 수 있었다.


    * 미국 연방 수사국(FBI)도 'CODIS(Combined DNA Index System)'라는 유전자 정보은행을 구축해 미해결 사건 용의자와 실종자에 관한 12만 명의 DNA 정보를 저장해 놓고 있다.


    매년 2,200만 명의 범죄자 DNA가 시스템에 추가되고 있다. FBI는 이들 정보를 범죄 수사에 활용해 빠르고 정확한 범인 검거에 나서고 있다. 2007년에는 45,000건에 달하는 범죄를 해결할 수 있었다.


    * 가장 이상적인 공공 서비스는 국민 개개인의 요구에 맞는 공공 정책과 서비스를 국민들에게 효율적으로 제공하는 것이다. 미래의 공공 서비스 역시 이 같은 목표를 향해 앞으로 계속 발전해 나갈 것이다.


    7) 徐評曰


    * 웅성웅성 아우성이 모이면 거대한 여론이 되고, 또박또박 성금이 모이면 세상을 구하고, 차곡차곡 데이터가 모이면 완벽한 의사결정이 되는구나.


    어쩌면 빅데이터가 크게 사람들의 프라이버시를 훼손할 수 있지만, 그렇다고 놓치고 좋은 전략과 정책 수립 기회를 버릴 수는 없는 것. 프라이버시를 보호할 수 있는 방법과 존중하는 마음을 먼저 가지고 새로운 세상으로 들어서길 바란다.


    4. 경영에 필요한 한마디


    * "우리가 던지는 말 한마디, 몸짓 하나까지 모든 것들이 데이터가 되는 세상이다." - 장영재(카이스트 교수)


    * "미래는 이미 와 있다. 단지 널리 퍼져 있지 않을 뿐이다." - 윌리엄 깁슨(세계적인 공상 과학 작가)


    * 데이터가 있으면 불합리한 결정이 내려지는 것을 막을 수 있다. 중요한 결정을 내려야 할 때마다 사람과 사물, 인터넷이 만들어 내는 데이터와 커뮤니케이션에 더 많이 의존하게 된다. 데이터를 통해 더 과학적인 방법으로 세상을 이해하고 변화시키는 방향으로 세상은 진화하고 있다.


    5. 멋진 사례와 재미있는 통계


    * 사람과 디바이스, 그리고 인터넷의 연결이 폭발적으로 증가하고 있다. 전 세계 인구의 90%에 해당하는 60억 대의 휴대 전화가 세계적으로 보급돼 있다. 인터넷 사용 인구 또한 20억 명을 돌파한 지 오래다.


    2020년에는 인터넷 인구가 50억 명에 이를 것이란 전망도 나와 있다. 사람뿐 아니라 자동차와 건물, 도로, 모바일 디바이스 간의 연결 또한 기하급수적으로 늘고 있다. 점점 더 많은 디바이스들이 인터넷에 연결되고 데이터를 만들어 내고 있다. 바야흐로 데이터가 넘치는 시대에 우리는 살고 있다.


    * 브레드 크럼(Bread Crumbs), 원래 빵부스러기란 뜻이지만 사람들이 만들어 내는 디지털 흔적 또는 조각으로 지칭한다.


    * 요즘 한국의 자원 봉사자들이 아프리카에 가서 봉사 활동을 펼치는 사례가 많다. 그런데 그중 재미있는 사례가 있다. 아프리카 원주민 마을에 가서 보니까 젊은 여성이나 주부들이 생활하는 데 필요한 물을 얻기 위해 몇시간이나 되는 거리를 하루에도 몇 번씩 항아리를 매고 오가는 것을 봤다고 한다.


    한국에서 간 자원 봉사자들은 이들의 수고를 덜어 주기 위해 우물을 파주겠다고 제안했다. 하지만 막상 우물을 파기로 결정했다는 사실이 알려지자 물을 길어 오는 아낙네들의 반대가 가장 심했다고 한다.


    이유가 무엇이었을까? 그들에게는 항아리를 매고 3~4km를 오가는 그 순간이 시댁 식구들로부터 자유로워질 수 있는 유일한 시간이었다. 자신만의 여가였던 셈이다. 한국인들은 그걸 고생으로 파악했지만 그들에겐 먼 길을 떠나는 고된 노동이 유일한 레저였다.





    서평전문 PDF파일빅데이터, 세상을 이해하는 새로운 방법다운로드