[대한민국 희망 프로젝트]<372>데이터 과학자

최근 신문에 자주 등장하는 직업 중 하나가 바로 ‘데이터 과학자’입니다. 그런데 ‘과학자’라는 말은 익숙해도 ‘데이터 과학자’는 정확히 무엇인지 생소하게 느끼는 분들이 많을 텐데요. 이미 미국에서는 하버드 비즈니스 리뷰가 21세기 가장 멋진 직업으로 데이터 과학자를 꼽는 등 미래 유망 직업으로 각광을 받고 있다고 합니다. 데이터 과학자가 이렇게 큰 관심을 끌고 있는 이유는 무엇일까요?

[대한민국 희망 프로젝트]<372>데이터 과학자

Q:데이터 과학자란 무엇인가요?

A:데이터 과학자는 방대한 양의 데이터를 분석해 기업에 필요한 가치를 이끌어내는 전문가입니다. 우리 일상 생활 대부분은 데이터로 기록됩니다. 우리가 온라인에서 공유하는 다양한 형태의 메시지, 이미지는 물론이고 그러한 데이터가 입력·검색되는 주기, 사용자 위치, 시간 모두가 빅데이터를 생성합니다. 특히 스마트폰이 대중화되고 무선통신 기술이 발전하면서 개인이 생성하는 데이터 양은 어마어마해지고 있는데요. 이렇게 방대한 데이터 안에서 일련의 분석 과정으로 가치 있는 정보를 뽑아내는 것이 데이터 과학자의 역할입니다.

Q:데이터 과학자가 중요한 이유는 무엇인가요?

A:빅데이터 시대로 접어들면서 기업이 보유한 데이터 규모가 급증했습니다. 이 가운데 특정 목적과 관련된 핵심 데이터를 깊이 있게 분석할 경우 통찰력을 이끌어낼 수 있습니다. 미국의 한 모바일 통신업체에서 실시한 빅데이터 분석 사례가 아주 흥미로운데요.

과거엔 계약 해지 원인을 서비스 품질에서 찾는 게 일반적이었습니다. 클라우드, 빅데이터 기업인 EMC의 데이터 과학자는 일정 기간 동안 계약 해지자 데이터를 추출·정제해 분석했습니다. 그 결과 고객이 계약을 해지하는 가장 큰 원인은 인적 네트워크, 즉 내 친구의 해지 여부에 달려 있음을 밝혀냈습니다. 이후 네트워크가 폭넓은 고객에게 낮은 요금이나 추가 서비스를 제공해 고객 이탈률을 크게 낮출 수 있었다고 합니다.

Q:데이터 과학자가 되기 위해 필요한 것은 무엇인가요?

A:데이터 과학자는 데이터 간의 상관관계를 통찰력 있게 바라보고 분석해 비즈니스 관점에서 가치를 이끌어내야 하기 때문에 융합적인 전문 역량이 필요합니다. 통계와 모델링, 수학 지식은 물론이고 분석하려는 데이터가 갖는 비즈니스 의미도 빠르게 이해하는 능력이 요구됩니다. 또 고객 비즈니스 현안을 바르고 정확하게 인식하기 위한 상식, 교양, 빅데이터 분석 결과를 설득력 있게 설명할 수 있는 프레젠테이션 능력도 필요합니다. 기업 데이터 과학자 조직이 경제학자, 사회과학자, 생물공학자, 물리학자 등 다양한 출신 성분으로 구성돼 있는 것을 볼 때, 한층 높은 수준의 전문 역량이 요구된다는 것을 쉽게 확인할 수 있죠.

Q:어떻게 데이터 과학자가 될 수 있나요?

A:빅데이터 분석으로 더 큰 통찰력과 경제적 가치를 끌어내고자 하는 업계 움직임이 세계적으로 한층 가속화하고 있습니다. 많은 국가와 기업이 데이터 과학자 양성과 발굴에 앞다퉈 박차를 가하고 있는데요.

우선 정부 차원에서는 미래부와 관련 부처가 합동으로 지난해 12월 ‘창조경제 및 정부 3.0 지원을 위한 빅데이터 산업 발전전략’을 발표하고 데이터 과학자 양성을 위한 초석 다지기에 나섰습니다. 데이터 전문 인력 양성과 일자리 연계가 목표입니다. 국내의 주요 대학과 협력하고 관련 직무 종사자를 대상으로 한 집중 교육 프로그램을 실시해 2017년까지 1000여명의 데이터 과학자와 5000여명의 빅데이터 실무 전문가를 양성할 계획이라 합니다.

기업 차원에서는 EMC의 산학협력 프로그램인 ‘EAA(EMC Academic Alliance)’에 따라 숭실대학교 등 주요 대학과 함께 빅데이터 전문 인력을 양성하는 한국EMC의 사례가 대표적입니다. 한국EMC는 또 2012년부터 한국전파진흥협회와 함께 기업 인력을 대상으로 빅데이터 교육 과정을 제공하고 있습니다. 컨설팅 업체 투이컨설팅도 재작년 데이터 과학자 양성과정을 개설했습니다.

안호천기자 hcan@etnews.com

◇‘19인의 데이터 과학자가 알려주는 나쁜 데이터 핸드북’ 이든 맥컬럼 지음. 비제이퍼블릭 펴냄.

나쁜 데이터란 무엇일까. 어떤 사람은 나쁜 데이터가 어그러진 기록과 같은 기술적 현상만을 포함한다고 생각한다. 하지만 나쁜 데이터는 그보다 훨씬 많다. 데이터 전문가 이든 맥컬럼은 지저분한 데이터 문제를 극복하는 방법을 보이기 위해 다양한 데이터 과학자 19명을 한자리에 모았다. 고장난 저장소부터 형편없는 표현, 그릇된 정책까지 나쁜 데이터가 되는 방법은 다양하다. 기본적으로 나쁜 데이터란 일하는 데 방해가 되는 데이터다. 이 책은 나쁜 데이터 문제를 해결하는 효과적 방법을 설명한다.

◇‘데이터가 보인다’ 히라이 아키오·오카야스 유이치 지음. 비제이퍼블릭 펴냄.

‘데이터가 보인다’는 데이터 과학자와 분석가가 알아야 할 데이터 분석의 기초와 활용 방안을 소개한다. 1장에서는 데이터 분석 방법과 분석 시스템 기반 기술의 전체 모습을 설명한다. 2장에서는 데이터 분석의 기초지식, 3장~6장은 데이터 분석의 기본적인 방법, 7장~9장은 분석 시스템의 기반 기술을 IT 전문지식이나 통계분석 지식이 없는 사람도 이해할 수 있도록 설명한다. 마지막 10장에서는 현재 크게 주목 받는 빅데이터 개념과 그 분석을 뒷받침하는 최신 시스템 기반 기술을 다룬다.