[WIS 2022]ETRI '모바일 회의환경 다자간 음성인식 기술'

한국전자통신연구원(ETRI)은 소리자바와 함께 모바일을 포함한 다양한 회의환경에서 사용할 수 있는 다자간 음성인식 기술을 선보인다.

이 기술은 장소 제약 없이 활용할 수 있다. 기존 유사 시스템은 서버를 기반으로 활용해 네트워크 연결이 필수였다. 반면에 ETRI 기술은 노트북 수준 컴퓨팅 자원만 있으면 언제 어디서나 실시간 활용이 가능하다.

ETRI 모바일 회의환경 다자간 음성인식 기술 개요
<ETRI 모바일 회의환경 다자간 음성인식 기술 개요>

또 강력한 화자 분리 기능을 갖췄다. 화자를 분리하려면 방대한 화자 정보를 기계학습으로 입력한 후 이를 기반으로 화자 간 발성 경계를 나눠야 하는데 ETRI 신기술은 새로운 알고리즘을 적용해 이를 효율화 및 최적화했다.

사용자별 대화 내용을 구분해 기록할 수 있는 것은 물론이고 다자가 참여하는 회의, 은행이나 병원과 같은 상담 창구에서도 원활한 의사소통을 위해 사용할 수 있다.

ETRI 모바일 회의환경 다자간 음성인식 기술 사용 예
<ETRI 모바일 회의환경 다자간 음성인식 기술 사용 예>

ETRI 음성인식 기술은 이미 서울시, 전국 각급 교육지청, 주요 은행 등 민간 및 공공분야 100여 곳을 통해 사업화된 바 있다. 지난 2020년과 2021년 국가 연구개발(R&D) 우수성과 100선에 선정되는 등 이미 우수성을 인정받고 있다.

2022 ICT 기술사업화 페스티벌 개최 기간에 메인 테마관과 ETRI 존에서 상시 시연하며 기술 상담도 가능하다.

김영준기자 kyj85@etnews.com