[AI 사피엔스 시대]"모히또 가서 몰디브 한 잔?"…이병헌 목소리 확신했더니 '땡'

네오사피엔스, AI 성우 '타입캐스트'
흉내 수준 넘어 감정 표현 자유자재
40분 학습으로 배우 음성 완벽 재현
교육·콘텐츠 등 다양한 산업 융합 기대

텍스트를 음성으로 변환하는 작업이 한창이다.
텍스트를 음성으로 변환하는 작업이 한창이다.

인공지능(AI)이 사람처럼 말하는 시대가 됐다. 목소리를 흉내 내는 수준을 넘어 다양한 감정 표현까지 자유자재다.

김태수 네오사피엔스 대표는 배우 이병헌의 진짜 목소리를 찾아보라며 두 개 음성을 차례로 들려줬다. 구분이 어려웠다. 감으로 하나를 골라봤지만 AI가 만든 가짜 이병헌 목소리였다.

AI는 40분간 학습을 통해 이병헌 음성을 완벽히 따라했다. 일반인 누구나 음성 파일을 제공하면 자신과 똑같이 말하는 AI를 만날 수 있다. 정확도는 데이터양에 비례한다. 두세 시간 학습으로 AI가 만든 목소리와 자연스럽게 대화할 수 있다.

네오사피엔스는 지난해 백범 김구 선생 육성을 복원해 주목받았다.

“여러분들이 만들어내는 오늘이 또 다른 대한민국 역사의 시작임을 잊지 말았으면 하오.” 이날 김 대표가 들려준 김구 선생의 육성이다. 힘찬 목소리에는 간절함이 느껴졌다. 단 6분 분량 김구 선생 음성 파일을 학습한 AI가 구현한 메시지다.

학습시간은 줄어들고 있다. AI가 똑똑해진 결과다. 김 대표는 “성대모사를 잘하는 코미디언일수록 새 목소리를 빨리 흉내내는 것처럼 AI도 학습을 반복하며 성능을 향상, 음성 연기에 숙달된다”고 설명했다. 네오사피엔스 AI 알고리즘도 고도화되고 있다. 그동안 어린아이, 악당 캐릭터 등 1000여명 상당 음성을 학습시켰다.

김 대표는 현재 AI 성우 서비스 '타입캐스트'를 운영 중이다. 텍스트만 입력하면 성우나 아나운서 목소리로 바꿔준다.

김 대표 안내에 따라 타입캐스트에 접속, 텍스트를 입력했다. 유럽 복지정책에 대한 기사를 입력 창에 붙였다. 40여명 성우, 아나운서 중 서너 사람을 무작위로 선택해 기사를 읽게 했다.

실제 사람처럼 다양한 표현을 입히는 것도 가능했다. 말하는 속도를 조절하거나 화난 목소리를 낼 수도 있었다.

성우가 AI 학습용 음성을 만들고 있다.
성우가 AI 학습용 음성을 만들고 있다.

AI 기반 음성 산업이 빠르게 발전하고 있다. 전문가들은 AI가 미묘한 감정 표현까지 가능해지면서 영화 속 가상 캐릭터를 맡을 날도 머지않았다고 내다본다. 뉴스나 다큐멘터리, 오디오북을 AI가 읽어주는 서비스가 가장 먼저 등장할 전망이다. 교육, 콘텐츠 산업과 융합도 기대된다.

국내 기술력은 상당한 수준이다. 서울대, KAIST 등이 해당 분야 주제 논문을 음성·오디오 관련 세계 학회에 꾸준히 게재하고 있다. 구글, 아마존은 지난해 네오사피엔스 논문을 인용, 연구 결과를 발표하기도 했다. 음성을 학습한 AI가 감정을 조절하고 외국어까지 구사하도록 한 기술을 눈여겨봤다. 네오사피엔스는 미국 대통령 트럼프가 한국어, 중국어, 일본어로 말하는 시연을 세계 최초로 선보였다.
김 대표는 “AI 기반 음성 산업은 이제 막 태동 단계여서 우리가 세계 1위로 올라갈 틈새시장이 무궁무진하다”면서 “네오사피엔스는 연기 잘하는 AI라는 신규 영역을 개척했다”고 말했다. 이어 “AI 산업이 올해부터 가능성을 넘어 우리 삶을 바꾸기 시작할 것”이라고 덧붙였다.

김태수 네오사피엔스 대표.
김태수 네오사피엔스 대표.

최종희기자 choijh@etnews.com