KAIST, AI 기반 화자 인식 음성센서 개발... 화자 인식률 97.5% 달해

KAIST(총장 신성철)가 인공지능(AI)을 활용해 높은 확률로 말하는 사람을 인식·구별하는 압전 음성센서를 개발했다. 97.5%에 달하는 화자 인식률을 바탕으로 스마트 가전이나 AI 비서의 음성 인식 기능과 서비스를 진일보 시키는 기반을 마련했다.

KAIST는 이건재 신소재공학과 교수, 유창동 전기 및 전자공학부 교수팀이 AI 기반 화자 인식용 유연 압전 음성센서 개발에 성공했다고 4일 밝혔다.

KAIST가 개발한 화자인식 센서 기술 개요
KAIST가 개발한 화자인식 센서 기술 개요

음성 센서는 사람의 소리를 전기신호화 해 인식하는 소자다. 4차 산업혁명 시대 핵심 요소로, 관련 시장이 2021년 160억 달러 규모로 성장할 전망이다. 그러나 현재 주로 사용하는 '정전용량 측정 콘덴서 방식'은 민감도가 낮고, 인식 거리가 짧다. 말하는 사람을 구별하는 화자 인식 구현에는 한계가 있다. 사람마다 맞춤형 서비스를 제공하는 것이 어렵다.

연구팀은 기존 콘덴서 방식보다 민감도가 높은 공진형 센서를 개발하고 이를 AI로 분석해 화자 인식이 가능하게 했다.

공진형 센서는 인체 기관인 달팽이관의 메커지늠을 모사했다. 주파수 영역에 따라 달리 진동하는 사다리꼴의 얇은 막을 제작하고, 이것이 특정 상황에서 크게 진동하는 '공진' 현상을 압전 물질로 감지하도록 했다. 이 방식을 활용하면 기존보다 민감도를 2배 이상 높여 한 번에 여러 가지 음성 정보를 얻을 수 있다.

이건재 KAIST 교수
이건재 KAIST 교수

다채널 정보는 '가우시안 믹스처 모델' 기반 기계학습으로 분석한다. 가우시안 믹스처 모델은 알고리즘으로 혼합된 정보를 다양한 집단으로 분류하는 확률 모델을 뜻한다.

연구팀은 이들 과정을 통해 화자 인식률을 97.5%까지 끌어올릴 수 있다고 설명했다. 기존 센서 대비 오차율은 75% 감소하는 것으로 나타났다.

이건재 교수는 “이번에 개발한 센서 기술은 화자를 정확하게 구별할 수 있어 개인별 음성 서비스를 스마트 가전이나 AI 비서에 접목할 수 있게 한다”며 “생체 인증이나 핀테크와 같은 보안 분야 발전에도 크게 기여할 것”이라고 말했다.

대전=김영준기자 kyj85@etnews.com