[이머징이슈] 자연어 음성인식 기술

 ‘아이폰4S’에 탑재된 지능형 음성인식 서비스 ‘시리’가 연일 화제다. 대화하듯 음성으로 문장을 입력하면 상황에 적절한 검색 결과를 제공해 재미있는 상황을 연출한다. 아이폰4S 사용자는 시리를 ‘이용’한다기보다 시리와 ‘대화’하는 형태로 정보를 검색하고 일정을 조율하는 데 익숙해지고 있다.

 아이폰4S로 음성인식 기술이 화두로 떠올랐다. 과거에는 음성을 인식해 텍스트로 변환하는 TTS(Text To Speech) 서비스 수준에 그쳤지만 이제는 일상 대화를 하듯 자연스러운 문장으로 말해도 이에 맞게 텍스트, 위치검색 등 다양한 검색 결과를 제공하고 있다.

 구글·마이크로소프트·애플을 비롯해 세계 전화자동 응답 장치(ARS) 시장 97%를 점유한 음성인식기술 기업 뉘앙스는 지능형 음성인식을 탑재한 다양한 서비스를 경쟁적으로 선보였다. 전통적 음성인식 기술 업체인 IBM과 AT&T는 자연어 음성인식 기술을 자체 개발한 음성인식엔진과 플랫폼에 반영해 기업 시장에 제공하고 있다.

 국내에서는 네이버와 다음이 각각 모바일 음성인식 검색 서비스를 제공하고 있다. 음성인식 기술 적용 분야는 인터넷을 넘어 자동차, 가전 등으로 확대를 시작했다. 삼성전자와 LG전자가 리모컨 없이 TV를 제어할 수 있는 음성인식 스마트TV를 개발하고 있는 것이 좋은 예다.

국제전기전자공학회(IEEE)가 발행하는 IEEE 스펙트럼지는 지난 6월 ‘웹에 큰 변화를 가져올 5대 기술’이란 보고서를 발간하고 모바일, 비디오, 센서, 빅 데이터, 자연 인터페이스를 선정했다. 스마트폰 환경이 일반화되고 클라우드 서비스가 확대되며 해당 5대 기술이 웹 서비스에 획기적 변화를 가져올 것으로 예견한 것이다.

 ◇‘무제한 음성검색’ 시대 온다=세계 IT 기업은 ‘인식 단어 수에 제한 없이’ ‘일상에서 구사하는 문장’을 ‘실시간 인식’하는 음성검색 기술 개발에 주력하고 있다. 국내에서 상용화된 음성인식 기술은 기초적인 음성 받아쓰기 수준이다. 구글이나 MS 등의 기업은 5개 단어 정도로 구성된 문장 인식 기술을 구현한다. 구글은 사람이 질문을 위해 사용하는 문장이 평균 8~11개 단어로 구성됐다는 점을 감안해 2019년까지 기술을 이 수준으로 끌어올린다는 계획을 세웠다.

 최근 아이폰4S 시리 사용기를 종종 볼 수 있다. 그 중 원어민 발음을 열심히 구사했지만 시리가 도통 알아듣지 못해 음성검색에 실패했다는 후기는 자연어 음성검색 기술 구현이 얼마나 어려운지 입증하는 사례다.

 자연어 음성검색에는 남녀노소 각기 다른 목소리 특징을 구분하고 개인의 발음 특징을 파악할 수 있는 데이터가 필수다. 예를 들어 애플 시리가 한국인의 영어 발음 특성 패턴 데이터를 보유하고 있다면 일반적인 영어 구사자도 문제없이 서비스를 이용할 수 있게 된다.

 친구나 옆 사람에게 자연스럽게 질문해도 원하는 검색 결과를 얻으려면 다양한 어휘와 문법 데이터가 필수다. 아울러 주변 소음을 자동 제거해 사용자가 인식시킨 음성만 검색하거나, 반대로 주변 소음을 자동 분석하고 검색 조건에 포함시켜 한층 능동적인 검색 결과를 제공하는 것도 가능해질 것이다.

 ◇스마트폰 넘어 자동차·의료 분야로 확대=자연어 음성인식 기술은 스마트폰을 넘어 게임, 교육, 자동차, 의료, 물류 등 다양한 산업으로 영역을 확장하고 있다.

 주변에서 가장 쉽게 접할 수 있는 음성인식 기술 기반 서비스는 영어 교육이다. 세계적으로 음성인식 기술 기반 언어교육 서비스는 1990년대 후반부터 제공되고 있다. 지앤비 온라인 프로그램(GnB online Program), 텔 미 모어(TELL ME MORE), 포닉스 튜터(PhonicsTutor) 등의 제품이 출시돼 있다. ETS는 음성인식 기술 기반 말하기 능력 평가 서비스를 제공하고 있다.

 자연어 인식과 가상현실 기술 등이 결합된 대화형 영어교육 연구도 진행돼 왔으며 관련 제품도 선보이고 있다. 한빛소프트 교육용 게임 오디션 잉글리시, 텔 미 모어, 에듀스피크(EduSpeak) 등이 대표적이다.

 게임 산업에서는 사용자의 몰입도를 극대화하기 위해 음성인식 기능을 채택한다. 마이크로소프트는 콘솔게임 X박스360 키넥트를 활용한 전쟁게임 ‘매스 이펙트’에서 음성으로 공격 명령을 내리는 기능을 탑재했다. 자동차 산업에서는 안전한 주행을 위해 차량 내 미디어기기를 제어하는 음성인식 서비스를 선보이고 있다. 기아자동차는 MS 음성인식 제어 엔진을 적용해 오디오 등을 제어하는 UVO 시스템을 선보인 바 있다.

 해외에서는 물류, 보안, 의료 산업에서 음성인식 기술을 채택한 사례가 선보였다. 글로벌 음성기반 물류솔루션 기업 보컬렉트는 수기 작성을 음성 입력으로 대체하는 물류 솔루션 ‘토킹 웨어하우스’를 구현했다. 러시아 국영은행 스베르뱅크는 ATM에서 다양한 신용 서비스를 제공하고자 사용자 음성을 분석해 신원 검색과 신용 평가 등을 수행하는 시험 서비스를 선보였다.

 

 <표> 주요 IT기업의 음성인식 기술 동향

(※자료: 삼성경제연구소, 메리츠종금증권 리서치센터)

배옥진기자 withok@etnews.com