ETRI, 9개국어 음성을 문자로 실시간 전환하는 음성인식기술 개발

한국전자통신연구원(ETRI·원장 이상훈)이 딥러닝 기술을 바탕으로 9개 국어 음성을 문자로 전환해 주는 음성인식 기술을 개발했다. 스마트폰을 활용한 동시통역 및 해외 스마트가전 시장 진출 등 다방면에서 유용하게 활용될 전망이다.

ETRI는 김상훈 음성지능연구그룹 프로젝트 리더팀이 1000시간 분량의 음성 데이터와 수억 개에 이르는 어절의 데이터를 딥러닝 머신러닝(기계학습)으로 습득하는 방식을 이용해 9개 언어 음성을 문자로 실시간 변환해 주는 음성인식 기술을 개발했다고 18일 밝혔다.

음성인식 기술은 사람 음성을 인식하고 다방면에 활용하는 기반 기술이다. 연구팀은 데이터에서 문법 오류와 어눌한 말투 등 '찌꺼기'를 제거하는 '데이터 자동정제 기술'로, 데이터 습득 효율을 높였다.

자체 개발한 알고리즘을 활용해 필요한 데이터만 추출하고 언어별 단어 발음을 자동으로 얻는 '다국어 발음 생성기술'을 활용, 일상 대화에서 95%에 이르는 변환 정확도를 확보했다.

ETRI는 이번에 개발한 기술은 구글을 비롯한 글로벌 선두 기업이 개발한 음성인식 기술과 비교해도 전혀 밀리지 않는 경쟁력을 갖췄다고 평가했다. 우리말에서는 확실한 비교 우위를 점했고, 다른 언어에서는 대등한 기술 수준을 보인다는 주장이다.

이 기술은 음성과 언어를 활용하는 모든 분야에 활용할 수 있다. 예를 들어 자동통역, 인공지능(AI) 비서, 방송 자막화, 콜센터 서비스 분야에는 바로 적용할 수 있다. 클라이언트 서버형, 단말 탑재형을 모두 지원함으로써 수십명이 동시에 접속해 이용하는 것도 가능하다.

ETRI 연구원들이 다국어 음성인식결과에 대해 분석하고 있는 모습. 연구원이 말을 하자 내용이 모니터에 문자로 표현되고 있다. (왼쪽부터 김상훈 프로젝트 리더, 이민규 연구원)
ETRI 연구원들이 다국어 음성인식결과에 대해 분석하고 있는 모습. 연구원이 말을 하자 내용이 모니터에 문자로 표현되고 있다. (왼쪽부터 김상훈 프로젝트 리더, 이민규 연구원)

연구팀은 이 기술을 바탕으로 30여건 국내외 특허를 출원했다. 자체 개발한 자동통역 애플리케이션(앱) '지니톡'에도 적용, 시범 서비스를 진행하고 있다.

ETRI는 향후 기술을 더욱 고도화해 지원 언어를 2020년 도쿄올림픽 개최 시점에 14개로 늘리고, 이후 20개 이상으로 순차 확대할 예정이다.

이 기술은 이동통신업체와 포털 및 음성인식엔진 기술 상용화 업체 등 음성인식 기술을 필요로 하는 기업에 이전할 계획이다.

김상훈 프로젝트 리더는 “음성인식 기술을 갈고 닦아 지속해서 기술 경쟁력을 높이겠다”면서 “글로벌 시장 진출을 노리는 우리나라 기업에 큰 도움이 될 것”이라고 말했다.

대전=김영준기자 kyj85@etnews.com