[기고]인공지능, 매력적인 목소리를 만들다

김수화 에이아이더뉴트리진 AI부문 대표.
김수화 에이아이더뉴트리진 AI부문 대표.

내 목소리는 매력적일까. 목소리의 경쟁력이 절대적 직업이 많다. 가수·성우·아나운서 등 연예인은 물론 학원강사·텔레마케터·정치인·목회자·세일즈맨 모두 목소리가 중요하다.

목소리가 중요한 이유는 과학적으로도 설명할 수 있다. 청각 반응 속도는 0.13초며 시각 반응속도는 0.17초다. 빛은 소리보다 빠르지만 망막에서 시각 정보처리 지연으로 청각보다는 느리다. 비즈니스에서 상대방 설득에는 시각적 외모의 중요도가 25%, 목소리의 영향이 30%, 콘텐츠 내용이 45%를 차지한다.

얼굴을 보지 않고 진행하는 텔레마케팅에서 처음 10초 이내에 계속 들을지 말지의 70%가 결정된다. 준비한 내용을 채 전달하기도 전에 상대방은 이미 마음의 결정을 내린다. 잘생긴 외모처럼 음성의 경쟁력이 중요하다.

'매력적인 음성'(Attractive Voice)은 어떤 특징을 띨까. 음성은 성대의 떨림이 구강·비강을 지나면서 주파수 공명현상으로 만들어진다. 입 벌림과 혀의 높낮이 위치도 중요하다. 사람마다 고유한 성대 떨림 주파수가 있다. 이를 '피치'(Pitch·Hz)라고 한다.

남성의 피치 값은 작고 여성은 크다. 사람마다 성대 형태와 구강 구조가 달라서 피치 값에 차이가 난다. 이를 통해 화자의 상태를 파악할 수 있다. 건장하고 체격 좋은 남성의 굵직한 음성에 매력이 끌리고, 여성호르몬과 생리 활동이 여성 목소리 매력도에 영향을 미친다는 사실은 학계의 정설이다.

목소리의 매력은 찰스 다윈이 '종의 기원'에서 제시한 성(性) 선택설로도 설명할 수 있다. 동물이 짝짓기할 때 더 유리한 신체 조건의 배우자를 선택해야 하고, 그 중요한 단서가 바로 목소리다. 목소리에 중요한 신체정보가 담겨 있다는 의미다. 무더운 여름날 귀가 따갑게 울어 대는 매미울음, 봄에 개구리가 우렁차게 우는 이유는 '나 아주 건강해요'라고 주장하는 것이다.

최근 인공지능(AI) 기술로 매력적인 음성을 분석하는 보이스 인텔리전스(Voice Intelligence) 분야가 활발하다. 피치 외에 음색의 지표, 포먼트 특성, 음성 스피드, 음성 크기(dB), 신호잡음비 등 다양한 특징을 분석하고 더 좋은 목소리를 연구하는 분야다. 딥러닝 모델을 통해 실적이 좋은 세일즈맨의 특징을 분류하거나 음성분석을 통해 자폐·폐렴·치매를 진단하고, 발화 장애를 조기에 진단할 수 있다.

지금까지 디지털은 손끝으로 조작됐다. 터치 센싱과 텍스트 입력이 대세였다. 음성과 동작 인식, 뇌파 신호를 감지해서 디지털 기기를 작동하는 비욘드 스크린 기술이 점차 확대되고 있다. AI 기술이 음성 영역에 침투하기 시작한 건 꽤 오래전이다. AI 뉴스 앵커를 비롯해 통신사가 보급한 AI 비서, 콜센터 AI 상담 콜봇 등이 서비스되고 있다. 자율주행차나 가전제품을 음성으로 조작하는 기술도 상용화를 앞뒀다.

음성 분야 AI 기술로는 음성인식, 음성 복제와 변조, 감정분석, 화자인식 등이 대표적이다. 텍스트 마이닝, 기계어 번역 기술과 결합해 영어·중국어·스페인어 등 언어 장벽을 넘나들며 자동 처리할 수 있다. 음성을 텍스트로 변환해서 텍스트에 담긴 화자의 의도와 감정까지 분석할 수 있다.

텍스트 내용뿐만 아니라 음성신호 떨림 현상까지 잡아내 감정 상태를 파악한다. 음성신호를 푸리에 변환을 이용해서 다양한 주파수를 분해하고, 시그널 주파수 특징을 텍스트와 결합해서 학습하는 방식으로 음성인식과 복제가 이뤄진다. '사랑'이란 단어를 사람마다 다르게 발음하지만 주파수 세계에서는 공통적인 음성 벡터를 추출할 수 있고, 벡터 값으로 알고리즘을 설계한다.

디지털 음성 기술은 메타버스 구현에도 중요하다. 가상 인간의 자유로운 감정 표현, 매력적인 음성 발화, 듣기 좋은 음성 속도 조절, 감정에 따른 음의 높낮이 조절 등이 필요하다. 메스가 아닌 AI 기술로 목소리 성형이 자유롭게 가능한 시대다.

김수화 에이아이더뉴트리진 AI부문 대표 shkim@aithenutrigene.com