"속보 읽는 AI 아나운서 " 카카오 3배 빠른 딥러닝 TTS 상용화

카카오가 인공지능(AI) 음성합성 기술을 한 단계 끌어올렸다. 그동안 음성합성 난제로 여겨지던 '속도' 문제를 해결했다. 실시간으로 생성되는 뉴스를 AI가 곧장 자연스럽게 발화할 정도로 수준을 높였다.

카카오는 6일 자사 AI스피커 등 카카오i 플랫폼에 기존보다 3배 빠른 문자음성변환(TTS) 기술을 적용했다고 밝혔다. AI가 방금 보도된 뉴스속보도 아나운서처럼 자연스럽게 읽어 준다.

TTS는 문자를 음성으로 바꾸는 AI 기술이다. 구글과 아마존 등 글로벌 기업은 물론 네이버와 카카오가 투자를 늘리는 분야 가운데 하나다. AI스피커의 '뉴스 읽어 주기'가 TTS를 적용한 대표 서비스다. 텍스트 분석은 물론 홈 사물인터넷(IoT) 서비스, AI 비서 서비스에 활용할 수 있다.

카카오가 이번에 선보인 TTS는 '딥러닝' '딥보이스 기술'로, 음성 합성 속도를 높인 것이 핵심이다. 카카오 관계자는 “딥러닝 TTS로 AI 스피커에 실시간 음성 합성 서비스를 적용한 것은 매우 고무적”이라고 강조했다.

기존 TTS는 전문 성우가 오랫동안 녹음한 음성을 자음, 모음으로 나눠 소리를 붙이는 형태가 일반형이었다. 데이터가 많을수록 자연스럽지만 녹음하지 않은 단어를 발음할 때는 어색하다.

주요 기업은 이 같은 단점을 해결하기 위해 수년 전부터 TTS에 딥러닝을 적용하기 시작했다. 이 방식은 적은 녹음 데이터로도 목소리 일부만 확보하면 호흡, 속도, 억양 등을 추출해 자연스럽게 문장을 읽을 수 있다.

카카오가 기존보다 3배 빠른 음성합성이 가능한 TTS기술을 최근 상용화했다. 각종 AI 스피커들.
 박지호기자 jihopress@etnews.com
카카오가 기존보다 3배 빠른 음성합성이 가능한 TTS기술을 최근 상용화했다. 각종 AI 스피커들. 박지호기자 jihopress@etnews.com

그러나 음성 합성까지 속도가 오래 걸리는 것이 걸림돌이다. 이런 점 때문에 고정된 데이터로 미리 음성을 합성한다. 이를 바탕으로 사용자가 요청할 때 스트리밍하는 오디오북 분야에 주로 활용해 왔다.

카카오는 TTS 모델을 경량화해 딥러닝 속도를 3배 높였다. 빨라진 속도를 기반으로 전체 문장을 분석하고 적절한 구절 단위로 문장을 쪼개 합성하는 방식을 적용했으며, 기존보다 더 적은 녹음 데이터를 활용하는 딥보이스 기술로 서비스 품질을 높였다. 카카오와 카카오브레인 연구진이 협업한 결과다.

소형준 카카오브레인 연구원은 “(이른 시간 안에) 글자뿐만 아니라 단어가 담고 있는 의미를 살릴 수 있도록 정교한 음성 합성 모델을 개발한 것이 핵심”이라면서 “다양한 상황에서 취득한 데이터를 학습에 잘 활용하도록 소리 데이터에서 음성만 분리·정제하는 기술을 고도화하는 연구를 지속해 나갈 방침”이라고 설명했다.

카카오는 앞으로 TTS 딥러닝 속도와 퀄리티를 높여 위치, 이동 속도 등 변수가 많은 스마트폰에서도 실시간 음성 합성이 가능하도록 만들 계획이다.

카카오 관계자는 “자연스러운 음성 인터페이스를 위해 감정이 느껴지는 TTS 기술과 자신의 목소리로 음성을 만들어 낼 수 있는 기술을 개발할 예정”이라면서 “추후 실시간 뉴스 읽기 외 다른 서비스로 딥러닝 TTS 적용을 확대하겠다”고 말했다.

김시소기자 siso@etnews.com