[기고]차세대 빅데이터: 가장 오래되고 인간화된 데이터

[기고]차세대 빅데이터: 가장 오래되고 인간화된 데이터

구글 트렌드에 검색어를 입력하니 실선 그래프 하나가 나타난다. 2011년부터 꿈틀거리던 추세 선은 2013년 들어 가파르게 상승, 2014년 10월 정점에 이른다. 이후 하락세로 돌아서 올해 12월 현재 정점 대비 60% 수준이다. 한때는 유행처럼 번지던 무엇인가가 이제는 관심에서 벗어나 천덕꾸러기 신세라도 된 것인가.

그렇지 않다. 이 검색어는 '빅데이터'다. 빅데이터는 이제 더 이상 구글링을 하지 않아도 될 정도로 신생 기술에서 벗어났으며, 전자 산업에서 반도체 위상에 버금가는 지위에 도전하고 있다. 이에 앞서 반도체가 모든 전자제품을 소형화·고성능으로 전환시키면서 스마트폰을 시작으로 인공지능(AI), 사물인터넷(IoT) 등 정보기술(IT) 기기를 고도화했다. 마찬가지로 빅데이터는 고도화된 IT 기기를 움직이게 하는 혈맥이 돼 우리가 상상할 수 있는 모든 비즈니스를 디지털 전환시키고 있다.

개발자는 빅데이터를 효율 높게 다루기 위해 컴퓨터 메모리 및 데이터베이스(DB) 등 프레임워크를 변형해 이른바 맵리듀스, 하둡 등과 같은 빅데이터 기술을 등장시켰다. 인터넷 기업 중심으로 이 기술을 앞다퉈 활용, 더 많은 데이터를 생성하고 수집하면서 빅데이터는 '더 큰 데이터'가 되고 있다.

그 결과 IoT와 함께 유튜브, 사회관계망서비스(SNS), 이메일 등 인터넷에서 매일 쏟아지는 데이터 양은 2.5엑사바이트(EB)로, '인류가 사용한 모든 단어' 절반에 이른다고 한다. 이처럼 폭증하는 데이터는 아무도 막지 못한 채 우리가 접하며 살아가는 인터넷 공간을 공기와 같이 가득 채우고 있다.

또 쓰나미처럼 몰려오는 데이터는 더 빠르고 광범위하게 과거를 덮어 가면서 오늘을 열어 가고 있다. 빠르게 생성되는 데이터는 더 빠른 데이터 처리 성능이 필요하고, 나아가 더 빠른 의사결정을 요구한다. 잘못된 의사결정을 피하기 위해 더 오랜 시간을 기다리는 일이 이제는 뒤늦은 결정이 돼 경쟁 상대를 필적하기 어렵게 할 수도 있다. 아마존과 같이 변화에 기민한 기업에 전통 의사결정 방식은 너무 느려서 그다지 도움이 되지 못할 것이다.

거의 2년마다 두 배씩 증가하는 데이터 90%는 비정형이다. 즉 숫자가 아닌 텍스트, 소리, 영상이다. 우리가 지금 세상에서 무슨 일이 일어나는지를 알기 위해 숫자만 들여다본다면 아마도 10% 샘플로 모집단을 추론하는 통계 산출 과정을 매일 무한 반복하게 될 것이다. 결국 메마른 사막의 오아시스 주변에 웅크린 우리 모습이 투영된다.

특히 텍스트는 인류 문화 총체를 담고 있는 가장 오래된 빅데이터로, 우리가 단순히 듣고 보는 소리와 영상을 우리 감성 및 해석이 담긴 음성·모습으로 탈바꿈시키는 인간화된 데이터를 제공하는 점에서 주목할 만하다.

이를 위해 텍스트 마이닝 절차를 통해 비정형 텍스트를 컴퓨터에서 처리가 용이한 정형 데이터로 변환하게 된다. 이 과정을 거치고 나면 빈도·상관성 등 간단한 통계량만으로도 글자 언어로 표현된 시, 소설, 트위트, 유튜브 댓글, 상품평 등에 내재된 메시지를 새롭게 발견하도록 돕는다.

지난해 5월 중국에서 시를 쓰는 AI 로봇 샤오아이스가 등장했다. 샤오아이스는 1920년 이후 중국 현대시인 519명이 발표한 작품을 스스로 학습해 2760시간 동안 1만여 편의 시를 쓰고, 이 가운데 139편을 선정해 시집을 펴냈다. 시집 제목 'Sunshine misses Windows'도 직접 지었다고 한다. 한 명의 작가가 같은 작업을 하면 약 100년이 걸린다.

일부에서는 시 쓰기 작업이 단순한 언어 나열에 불과하고, 인간이 간직한 영혼을 담을 수 없다고 한다. 또 이렇게 작성된 시는 모방의 일부로, 진정한 감성을 드러내지 못한다고 주장한다. 그러나 어린아이의 인지 발달을 이해한다면 데이터 발달이 인간화 과정이라는 새로운 여정을 가고 있다는 것을 어렵지 않게 발견할 것이다.

앞으로 텍스트 데이터는 차세대 빅데이터가 되어 AI와 딥러닝 기술과 결합하면서 활용 범위를 넓혀 우리의 사고와 추론 과정을 빠르게 대신해 나갈 것이다. 또 과거 소수의 사람만이 할 수 있었던 창의 사고를 좀 더 대중성 있게 할 수 있을 것으로 기대한다. 지금 우리가 준비하지 않는다면 내일은 AI-bot이 할 것이다.

김한성 한국은행 차세대 시스템 개발단장 hansungkim@bok.or.kr