
일레븐랩스가 영상·오디오 콘텐츠 번역과 더빙을 한층 자연스럽게 구현하는 신규 인공지능(AI) 더빙 모델 '더빙 v2'를 발표했다.
더빙 v2는 텍스트 스크립트에만 의존해 단조롭고 끊기는 오디오를 생성하던 기존 AI 더빙 한계인 감정과 전달력 손실 문제를 개선했다.
원본 음성에 담긴 감정·톤·억양·말의 간격·전달 방식 등 화자 '퍼포먼스'를 직접 분석하고 다국어 음성에 그대로 반영, 자연스럽고 몰입감 있는 다국어 더빙 경험을 제공한다.
원본의 감정톤과 연기적 표현을 보존하고 목표 언어의 문맥에서 가장 자연스럽게 들리는 표현으로 번역과 조정을 수행, 시청자 몰입감을 극대화한다. 번역 후 생성된 음성을 원본 음성 시작과 종료 타이밍에 맞춰 자연스럽게 정렬하며 별도 수동 클로닝 과정 없이 화자 개성을 살린 다국어 더빙을 생성한다.
일레븐랩스는 한국어 원본 콘텐츠 화자나 캐릭터가 가진 감정 표현과 목소리의 개성을 최대한 살려 영어 등 90개 이상 언어로 확장을 지원할 예정이다. 실제 SBS 등 국내 방송사 다큐멘터리 제작에 적용되고 있다.
홍상원 일레븐랩스 한국 총괄은 “번역된 음성을 원본 화자가 구사한 것처럼 느끼게 만드는 것은 그동안 AI 더빙 분야 가장 큰 난제 중 하나였다”며 “더빙 v2는 정교한 감정 재현력과 뛰어난 싱크를 바탕으로 국내 크리에이터와 마케터, 콘텐츠 기업들이 언어 장벽을 넘어 세계 사람들과 더 깊고 자연스럽게 소통하는 강력한 교두보가 될 것”이라고 말했다.
더빙 v2는 일레븐랩스 플랫폼(UI)를 통해 크리에이터·마케팅팀과 미디어·엔터프라이즈 기업 등에 지원된다. 대규모 콘텐츠 제작 워크플로우 또는 기존 시스템과 연동을 검토하는 기업 등을 위한 API 제공도 순차 확대될 예정이다.
박종진 기자 truth@etnews.com