[프리즘]데이터 빅뱅

[프리즘]데이터 빅뱅

우리는 ‘데이터’ 홍수 속에서 살고 있다. 텍스트 데이터는 물론이고 사진과 영상 등 다양하고 엄청난 데이터들이 연일 쏟아진다. 세계적으로 1분당 600개의 블로그가 게시된다. 트위터에는 매일 1000만 페이지짜리 책에 버금가는 글이 올라온다. 이를 종이로 인쇄해 쌓아 올리면 높이가 450m에 달한다. 월드와이드웹에는 83억2000만개 이상 웹페이지가 있는 것으로 추산된다.

사진은 더 많다. 사진이 처음 발명되고 난 후 100년 동안 찍은 사진을 모두 더한 것보다 더 많은 사진이 오늘 찍힌다. 현재 약 4억대의 모바일기기가 통화되는 것으로 집계된다. 이 수치가 오는 2020년이면 500억대에 달할 전망이다.

전체적으로 데이터는 매일 대략 250경바이트씩 늘어난다. 정보통신 단위를 적용하면 2.5엑사바이트다. 이 같은 데이터 양은 3년마다 두 배씩 늘어난다. 올해는 어림잡아 약 80해바이트의 데이터가 생길 것으로 예측된다. 이른바 데이터 빅뱅 시대다.

지난 2013년 정부도 데이터 중심의 창조경제를 구현하겠다고 선언했다. 이후 공공기관의 데이터 개방이 활기차게 이뤄진다. 규모가 큰 데이터를 뜻하는 ‘빅데이터’를 활용한 전략과 청사진도 제시됐다. 큰 흐름에 맞는 시의적절한 전략이다.

하지만 우리의 데이터 전략에는 짚고 넘어야 할 문제가 있다. 우선 데이터 질이다. 정부가 제공하는 데이터는 적지 않은 오류가 있다. 오염된 데이터로 인한 피해는 치명적일 수 있다. 구축경험, 누적연도, 세밀한 통계작성, 기술 법적 문제 등 데이터 구축인프라도 열악하다. 빅데이터를 이해·분석하는 전문가도 부족하다. 앞으로 양질의 데이터를 수집하기 위한 인프라가 제대로 갖춰졌는지도 의문이다. 여기에 데이터 경제를 고려하지 않은 개인정보보호법까지 걸림돌로 작용한다.

데이터 분석에 기반을 둔 정부 정책과 기업의 경영활동 예측 등은 피할 수 없는 과제다. 양질의 데이터를 구축하고 이를 가치 있게 분석하도록 우리의 데이터 환경을 차분히 살펴봐야 할 때다.

윤대원기자 yun1972@etnews.com