[사이언스 온고지신]보다 쉽고 간명하게 하는 데이터 과학자

문명 발전은 현상을 관찰하고 자료를 수집하는 능력과 도구의 발전으로 이루어졌다. 우리 조상은 거리, 무게, 부피, 온도, 시간을 측정하는 도구를 개발하고 발전시켰다. 도구는 수렵 사회를 농경 사회로, 다시 산업사회로 변화하는데 중요한 역할을 했다.

[사이언스 온고지신]보다 쉽고 간명하게 하는 데이터 과학자

21세기 들어 이러한 변화 과정이 더 빨라지고 있다. 특히 데이터 과학자는 다량의 데이터에서 중요한 통찰력을 얻고 있다. 데이터 기술 영향력도 커지고 있다.

데이터는 방대하면서도 가치가 높고 재생 가능한 주요 리소스가 됐다. 산업화 시대 생산 3요소인 노동, 토지, 자본에 더해 데이터가 중요하면서 차별화된 요소로 떠올랐다.

세계 데이터의 90%는 지난 2년 동안 생성된 것이다. 데이터 생성 속도는 2년마다 2배로 증가한다. 우리나라도 데이터 중요성을 인식, 정부 보유 공공데이터를 기계학습이 가능한 오픈포맷으로 전환해 개방하고, 공공기관 보유 데이터를 발굴해 개방하는 방안을 수립하고 있다.

데이터 과학자의 과제는 독창성을 살려 데이터에 내재된 가치를 찾아내는 것이다. 데이터를 처리하고, 관찰한 내용으로 통찰력을 얻고, 이를 통해 해답을 찾는 능력은 사회 과제를 해결하는 데 요긴한 역할을 한다.

구글 모회사인 '알파벳'의 기술전문 인큐베이터 '직소'는 최근 워싱턴포스트와 함께 어려운 기술용어를 이해하기 쉽게 설명해주는 '사이드웨이즈사전'을 선보였다. 이 사전은 의미를 유추하는 방법으로 이해하기 쉽게 설명한다. 비트코인을 '디지털 금덩이'로, '해킹'은 '허락 없이 누군가의 집에 들어가는 것'이라고 풀이하는 식이다. 더 자세한 설명은 별도로 제공한다.

워너 보겔스 아마존 CTO는 아마존 기술혁신 비결을 “고객으로부터 일한다는 것”이라고 말했다. 아마존은 제품을 개발할 때 첫 단계에서 언론 보도자료를 작성한다. 보도자료는 가장 명확하고 간단하게 표현하기 때문이다. 다음 단계는 FAQ 작성이다. 사용하는 방법을 소비자 입장에서 정리한다. 제품 개발을 엔지니어가 주도하는 게 아니라 고객으로부터 나온 데이터에 기초해 거꾸로 일한다는 특별한 개발 프로세스다.

영국 첼튼엄에서 시작된 페임랩은 자신만의 독특한 소품을 이용해 과학기술을 3분 이내에 발표하는 경연대회다. 일반 청중에게 과학기술을 쉽게 이해시키기 위해 재미있고 참신하게 발표하는 것이 중요하다. 세 가지 규칙이 있다. 첫째는 3분의 제한시간. 둘째는 한 개의 소품만 손에 들 수 있다는 것. 셋째는 발표자료 없이 소통해야 한다는 것이다. 강연이 끝나면 4분의 질의응답이 이어진다.

한국과학기술정보연구원(KISTI)은 연구보고서를 비롯한 9대 성과물을 국가과학기술정보센터(NDSL)와 국가과학기술지식정보서비스(NTIS)에서 이용할 수 있게 만들어 두고 있다. 연구성과물을 공동으로 활용하고, 성과를 확산하기 위해 연구 결과를 알기 쉽게 전달하기 위한 기술과 서비스를 연구하고 있다. 대용량 문서 데이터를 키워드 그래프로 요약하고, 중심 내용을 쉽게 파악해 전달하는 방법을 개발했다. 또 연구보고서를 구조화해 장, 절 단위로 검색하고 표와 그림 등 비(非)텍스트만 별도로 검색해 다운받을 수 있게 했다.

아인슈타인은 “과학자는 단순한 현상을 복잡하게 설명하는 사람이 아니라 복잡한 현상을 단순하게 설명하는 사람”이라고 정의했다. 데이터를 보다 쉽고 간명하게 이해할 수 있도록 만드는 것이 바로 데이터 과학자의 과제다.

김재수 KISTI 첨단정보융합본부장 jaesoo@kisti.re.kr