[테크리포트] AI와 만난 TTS, 목소리까지 훔치다

[테크리포트] AI와 만난 TTS, 목소리까지 훔치다

우리도 모르는 사이에 지하철이나 버스에서 들리는 안내 목소리는 꽤 자연스러워졌다. 처음에는 전문 성우로부터 모든 안내 멘트를 녹음해 방송했을 거라고 착각할 정도였다. 그만큼 여기에 쓰이는 음성합성시스템(TTS)이 많은 발전을 거듭해 온 것이다. 빅데이터와 인공지능(AI) 기술이 결합하면서 TTS도 새로운 단계로 진입했다. 기존 문자를 목소리로 바꾸던 개념에서 벗어나 사용자 목소리를 직접 학습하고 따라하는 형태로 진화하고 있다.

김광회 넥스트데일리 기자 elian118@nextdaily.co.kr

네이버(왼쪽)와 다음 뉴스에서 제공하고 있는 뉴스 읽어주기 기능
네이버(왼쪽)와 다음 뉴스에서 제공하고 있는 뉴스 읽어주기 기능

◇실생활 곳곳에서 쓰이는 TTS

TTS(Text to Speech)는 본래 문자로 정보를 전달하기 어려운 상황에서 사용자 접근성 향상을 위해 개발됐지만 현재는 더 다양한 목적으로 활용되고 있다. 읽기에 비해 집중력이 덜 요구되고 시선을 독차지하지 않는 까닭이다. 현재는 자동응답서비스, 버스·지하철 안내방송을 비롯해 책·인터넷 문서 읽어주기 서비스, 유튜브 녹음, 음성 AI 등 다양한 분야에서 TTS가 접목되고 있다. 살짝 티 나기는 하지만 성우 더빙을 대신하기도 한다. 시간적인 여유가 많다면 소리를 통해 문법상 어울리지 않는 문장 구조 파악에도 괜찮다. 단순해도 사용법은 저마다 별나고 유용한 셈이다.

TTS 원리는 사전 녹음된 목소리를 전용 엔진이 단어별로 쪼개 재조합하고 사용자에게 들려주는 것으로, 파형접합합성(UTS)법이라 불리고 있다. 단순 조합에 불과해 인조음이라는 사실은 쉽게 알 수 있다. 언어마다 최적화된 엔진이 다르고, 소비자마다 선호하는 목소리와 톤이 다르기 때문에 현재는 같은 한국어 내에서도 다양한 엔진이 개발돼 존재하고 있다.

국내 음성합성, 음성인식 솔루션 기업 보이스웨어가 한국어 샘플로 제공하는 TTS 엔진은 12가지에 달하며 각 엔진별로 목소리 변조도 가능하다. [사진=보이스웨어]
국내 음성합성, 음성인식 솔루션 기업 보이스웨어가 한국어 샘플로 제공하는 TTS 엔진은 12가지에 달하며 각 엔진별로 목소리 변조도 가능하다. [사진=보이스웨어]

TTS 엔진은 보통 업무 효율화를 위해 기업이나 기관이 소비자에게 제공하는 서비스를 보조하는 역할로 도입돼 왔다. 최근 들어서는 음성 인공지능(AI) 개발사와 협업도 긴밀해지고 있다. 우리가 AI 스피커로 듣는 음성도 문자 응답 메시지를 TTS 엔진으로 음성 변환한 것이다. 그러나 이는 AI와 TTS가 접목한 아주 기본적인 예시에 불과하다.

◇AI 만난 TTS, 제대로 성대모사

TTS는 AI 의사소통 수단이었지만 2016년 구글 딥마인드가 자사 TTS '웨이브넷(WaveNets)'을 온라인 논문 공유집 아카이브(arXiv)를 통해 발표하면서 새로운 국면을 맞았다. 이 시기를 기점으로 AI는 인간 목소리를 제대로 흉내내기 시작했다. 웨이브넷은 녹음된 단어 발음을 이어붙이는 기존 TTS 방식과 달리 딥러닝 기반으로 작동한다. 녹음된 발음을 기초로 학습해 녹음되지 않은 목소리까지 스스로 예상해 생성하는 것이다. 당시 딥마인드는 자사 포스트에서 “웨이브넷이 현존하는 최고의 TTS보다 더 자연적으로 들리는 음성을 생성해 인간과의 차이를 50% 이상 줄일 수 있다”고 설명했다.

처리 속도도 빨랐다. 딥마인드는 당시 논문에서 실제 사용자 기기에서 빠르게 오디오파일이 생성되도록 많은 노력을 했고, 그 결과 1초가량 음성 파일 생성에 50㎳가 걸렸다고 밝혔다.

기존 TTS 방식이 4점 미만인 것에 비해 웨이브넷은 영문에서 4.21 중국어(북경어)에서 4.08점을 기록하며 녹음된 실제 목소리에 근접했다. [사진=구글 딥마인드]
기존 TTS 방식이 4점 미만인 것에 비해 웨이브넷은 영문에서 4.21 중국어(북경어)에서 4.08점을 기록하며 녹음된 실제 목소리에 근접했다. [사진=구글 딥마인드]

딥마인드 블로그에 게재된 목소리 샘플 또한 기존 TTS와 딥러닝 기반 TTS와 차이를 효과적으로 비교했다. 얼핏 들으면 웅얼거리는 목소리도 똑같아 실제 사람 목소리로 착각할 정도다. 이후 웨이브넷은 구글 머신러닝 기반 AI '태코트론2(Tacotron2)'와 결합하며 더 완벽한 인간 목소리를 갖추게 됐다.

태코트론2는 웨이브넷이 발표된 이듬해에 개발됐다. AI는 문장부호와 대문자까지 포함해 주어진 문장 맥락을 이해하고 어떻게 발음할지 예상해 시각화(스펙토그램)하는 능력을 가졌다. 예상되는 소리 진폭을 시간 흐름에 따라 흑백의 진하기로 표현하는 것이다. 시각화된 가청주파수인 셈이다. 이렇게 시각화된 정보는 웨이브넷에 전달돼 사람의 목소리로 발음된다.

구글이 밝힌 태코트론2의 평균 발성 점수(MOS)는 4.53점이었다. 이는 웨이브넷 자체 소리 점수인 4.21점보다 높고, 실제 사람 목소리 4.58점에 거의 근접한 수치였다. 목소리의 효과적인 디지털화로 사람 목소리를 완벽히 따라할 수준에 이른 것이다.

◇박명수와 유인나를 지나 내 목소리까지

구글 TTS 관련 기술은 세계 개발자에게 완벽한 인간 목소리를 AI에 이식할 수 있는 중요한 실마리를 제공했다. 국내에서도 산·학·연 다양한 방면에서 딥러닝 기반 TTS 기술을 연구하고 있다. 아직 구글이나 바이두와 같은 업체들의 합성품질에는 미치지 못하고 있다는 평가지만 지난해부터 주목할 만한 사례를 남기고 있다.

KT는 지난해 5월 '박명수를 이겨라' 퀴즈 게임을 선보이며 개인화 음성합성 기술(P-TTS)이 적용된 개그맨 박명수 목소리를 공개했다. P-TTS는 30분 동안 300개 견본 문장 녹음만으로 AI가 발화 패턴과 억양을 학습해 자연스러운 목소리를 구현한다. 구글 태코트론2와 같은 원리다.

KT는 지난 4월 AI 스피커 기가지니 테이블 tv에서 P-TTS를 적용한 내 목소리 동화 서비스를 선보였다. [사진=KT]
KT는 지난 4월 AI 스피커 기가지니 테이블 tv에서 P-TTS를 적용한 내 목소리 동화 서비스를 선보였다. [사진=KT]

이후 KT는 P-TTS로 올해 3월에 지상파 3·1절 특집 다큐멘터리에 독립운동가 고 정재용, 이갑성 선생 목소리를 재현했고, 지난 4월에는 자사 화면탑재형 AI 스피커 '기가지니 테이블 tv'에서 '내 목소리 동화' 서비스로 선보였다. 스마트폰에 저장된 목소리를 기가지니가 학습해 부모 목소리로 아이에게 책을 읽어주는 것이다. KT 관계자는 “P-TTS는 KT 자체 연구 인력만으로 개발했다”면서 “최소 녹음 데이터량, 음성합성 품질, 데이터 전처리 등에서 국내 최고 수준 기술을 보유하고 있다”고 말했다.

네이버클로바 nVoice의 HDTS는 딥러닝(DNN)과 파형 접합 합성(UTS)을 결합한 하이브리드 음성합성(Hybrid Dnn Text-to-Speech) 기술로 지난해 7월 발표됐다. 이 기술은 4시간 녹음만으로 고품질 음성 합성이 가능하다. 이후 네이버클로바는 배우 유인나와 함께 HDTS로 구현한 목소리를 만들었고 지난해 12월부터 유인나 목소리를 제공하고 있다.

네이버클로바 유인나 목소리 메이킹 필름 영상 스틸컷 [사진=네이버클로바]
네이버클로바 유인나 목소리 메이킹 필름 영상 스틸컷 [사진=네이버클로바]

당시 김재민 네이버 서치앤클로바 음성합성 리더는 “최소 40시간 이상 녹음 시간이 필요한 UTS 기술보다 한층 고도화된 기술로써 글로벌 IT기업이 실제 서비스에 활용하고 있는 음성합성기술 대비 우수성을 갖췄다”고 말했다. 상용화되진 않았지만 SK텔레콤도 딥러닝 기반 TTS 연구를 계속 진행해왔다. 지난해 8월에는 SK텔레콤 20주기를 맞아 최종현 선대회장을 홀로그램으로 구현하는 과정에서 현재 개발 중인 TTS 기술로 목소리를 복원한 바 있다. SK텔레콤은 해당 기술이 “NUGU 서비스 일부 기능에서 적용되고 있다”고 밝혔다.

◇편하자고 만든 기술, 전과 7범 사기꾼 능가

딥러닝 기반 TTS는 어떤 목소리 견본을 확보하느냐에 따라 다양한 목소리를 낼 수 있다. 앞서 살핀 기존 TTS 활용까지 고려한다면 딥러닝 기반 TTS를 활용한 서비스와 활용도 다양하게 나타날 것으로 예상되고 있다. 전문 성우가 하는 일도 단지 목소리 샘플 제공에 그칠 수도 있다.

버즈피드라는 온라인 매체가 만든 가짜 동영상에 등장한 오바마는 “우선 결론만 말해 보겠습니다. 트럼프 대통령은 진짜 머저리 같은 인간입니다”라고 말했다. [사진=버즈피드]
버즈피드라는 온라인 매체가 만든 가짜 동영상에 등장한 오바마는 “우선 결론만 말해 보겠습니다. 트럼프 대통령은 진짜 머저리 같은 인간입니다”라고 말했다. [사진=버즈피드]

그러나 이 기술은 악용될 소지도 있다. 누군가 자신이나 가족 목소리를 AI에 학습시켜 보이스피싱에 동원할 수도 있다. 오바마 전 미국 대통령과 메르켈 독일 총리가 머신러닝 기반 딥페이크 기술로 만든 가짜 동영상으로 인해 곤욕을 치른 사실은 이미 유명하다. 딥페이크와 발전된 TTS 기술이 결합하면 사회를 전복시킬 만큼 허구가 진실을 대체할 위협도 공상만은 아니다.

국내도 이 사실을 잘 알고 있다. KT는 실제로 악용에 대비해 내 목소리 동화에서 제한된 문장만 합성하도록 AI 기능을 설정했다. 또 타인이 활용할 수 없도록 목소리를 등록한 사람이 지정한 단말에서만 합성음을 들을 수 있도록 했다.

특정 기능에 맞춘 AI 능력 제한 외에 근본 해결 방안도 연구되고 있다. SK텔레콤은 “기술적으로는 오디오 워터마크를 적용해 목소리 데이터 보안을 강화할 수 있다”고 의견을 냈다. 이 기술은 현재 저작권 식별을 위해 쓰이고 있지만 다른 앱에서 워터마크를 확인해 변조음 여부를 판단하는 데에도 활용할 수 있다는 설명이다.