영어 몰라도 괜찮아…AI 번역 데이터 150만개 개방

사진=게티이미지.
사진=게티이미지.

영어 문장을 한글로 해석한 번역 데이터 150만개가 오는 11월 일반에 개방된다. 데이터 수급에 애를 먹는 스타트업이 숨통을 틀 수 있게 됐다. 인공지능(AI) 기반 한영·영한 번역 기술을 고도화하는 데 기여할 전망이다.

한국정보화진흥원(NIA)은 오는 11월 150만개에 달하는 번역 데이터를 공개할 계획이라고 2일 밝혔다. 대상은 뉴스 80만개, 대화체 문장 50만개다. 법률과 한국 문화 관련 문장도 10만개씩 포함됐다. 진흥원이 운영하는 'AI허브' 사이트를 통해 회원가입 후 누구나 내려받을 수 있다. 정부 차원에서 150만개 규모 데이터를 개방하는 것은 해외에도 전례가 없다는 것이 NIA 측 설명이다.

NIA 관계자는 “기계번역 수준이 아직 원어민이나 전문 통·번역가에는 못 미친다”며 “번역 데이터의 산업 가치를 높게 평가, 데이터 구축 사업을 시작했다”고 말했다.

데이터가 풀리면 다양한 AI 서비스가 나올 것으로 기대된다. 데이터 수급에 어려움을 겪던 스타트업에게도 기회다. 지금까지는 데이터를 구하려면 직접 번역문을 만들거나 돈을 주고 매입해야 했다. 문장 100만개를 구입하는 데 최소 5억원이 든다.

대화체 문장은 챗봇 개발에 쓰일 수 있다. 영어 학습용 서비스와도 결합 가능하다. 외국기사 번역 품질을 높이는 데는 뉴스 데이터가 적용된다. 국내 문화재, 역사를 해외에 알리는 데도 유용하다. 한국학중앙연구원은 딥러닝 기술을 활용한 기계번역(NMT) 서비스를 선보일 예정이다. 10만여 한국 문화 데이터로 NMT를 학습시킬 수 있다.

구글 번역기를 뛰어넘는 서비스가 나올 수도 있다. 학습 가능한 데이터가 늘어날수록 기계번역 성능은 올라가기 때문이다. 현재 딥러닝 기반 NMT는 오픈소스 형태로 개방돼 있다. 누구나 가져다 쓰면 된다. 데이터만 확보하면 지금의 구글 번역기보다 앞선 새 모델을 만들 수 있는 셈이다.

지난해 첫선을 보인 증강학습이 데이터 활용을 수월하게 했다. NMT가 100만 문장을 학습하려면 그래픽처리장치(GPU) 서버를 일주일 정도 돌려야 한다. 문제는 신규 데이터를 추가로 학습할 때 발생한다. 전체 데이터에 새 문장을 더한 뒤 GPU 서버를 처음부터 다시 돌려야 했다.

증강학습 기술을 이용하면 기존 데이터는 건드리지 않고 추가된 문장만 별도 학습시키는 것이 가능하다. 데이터 학습 시간과 비용이 획기적으로 줄어든다. 시장조사업체 테크나비오에 따르면 세계 자동 통·번역시스템 시장 규모는 2013년 2억5000만달러에서 연평균 19.1%씩 성장, 2018년 6억1000만달러에 달한 것으로 추정된다.

김현철 한국인공지능협회 이사는 “번역 데이터가 개방되면 국가 간 장벽을 허무는 다양한 언어 지원 서비스를 만들 수 있다”며 “이번 사업을 통해 스타트업 해외 진출이 용이해질 것”이라고 기대했다.

최종희기자 choijh@etnews.com