[카&테크]스마트카 최종병기, 음성인식 기술

글자 작게 글자 크게 인쇄하기

글로벌 시장조사기관 마켓앤마켓(Markets and Markets)에 따르면 음성인식 기술을 포함한 자동차 AI 시장은 올해 7.8억 달러(약 8835억원)에서 2025년 105.7억 달러 규모로 성장할 전망이다. 테크나비오사는 2016년부터 2020년까지 관련 시장이 연평균 11% 성장률을 보일 것으로 예상하기도 했다.

인공지능을 활용한 대화형 음성인식 비서 서비스를 구현하기 위해선 잘 듣고, 이해하고, 말하는 3가지 기본 동작이 중요하다.
<인공지능을 활용한 대화형 음성인식 비서 서비스를 구현하기 위해선 잘 듣고, 이해하고, 말하는 3가지 기본 동작이 중요하다.>

음성인식은 인공지능 자동차를 구현하는 궁극 기술이다. 사용자를 사물인터넷과 연결하는 가장 효과적 방법이자, 운전이라는 행위에서도 해방시킬 수 있기 때문이다.

미국 포드는 2022년까지 전 차종에 음성인식 기술을 적용할 계획이고, 신차종 중 75%는 클라우드 네트워킹 기반의 음성인식 옵션을 탑재하게 될 것이라 밝혔다.

최근 차량용 음성인식 기술은 아마존의 알렉사(Alexa) 등과 연동해 주소검색 등은 기본으로 차 안에서 오디오북을 듣고, 음악을 틀거나 온라인 쇼핑리스트를 관리하는 다양한 기능을 선보였다.

현대기아차도 남양연구소에 '차량 IT 지능화리서치랩'을 설치해 음성인식 기술을 연구 중이다. 인공지능을 활용한 '대화형 음성인식 비서' 서비스, 인포테인먼트 시스템과 각종 편의장치도 개발 중이다. 곧 출시 예정하는 제네시스 'G70'은 국내 최초로 서버형 음성인식 기능을 탑재할 계획이다. 이는 카카오와 협업을 통해 개발한 인공지능 플랫폼 '카카오 I(아이)'를 활용한 서비스다.

현대모비스도 'AVN(Audio Video Navigation)' 등 멀티미디어 부품에 음성 검색과 제어 기능을 적용 중이다. 자동화 평가장비 등을 갖추고 노이즈 제거, 구간 인지 등 음성인식률을 높이는데 핵심적인 전처리 기술 개발에 주력하고 있다.

음성인식 원리는 '말소리'를 주파수 패턴으로 분석, 보정해 기호화 하는 것이다. 성대 등 인체의 조음기관에서 발성된 소리는 고유의 '기본 주파수'를 지닌다. 이러한 소리는 비강, 구강기관을 통과해 입술 끝을 거치며 '공명 주파수'로 출력된다. 인체와 공기의 '마찰음'이 '말소리'로 바뀌는 과정이다.

'공명 주파수'는 100·200·300Hz 등 다양한 단순파의 합으로 이뤄진다. 여러 단순파의 진폭과 주파수 데이터에 시간에 따른 변화 추이를 더하면 3차원 그래프를 만들 수 있는데 이를 '스펙트로그램'이라 한다.

각각의 모음과 자음은 특정한 형태의 '스펙트로그램'을 나타낸다. 마이크가 수신한 음성신호를 증폭해 AD(Analog to Digital)칩이 디지털 데이터로 전환하면 CPU가 '스펙트로그램'의 패턴을 분석해 문자로 해석해낸다. 현대기아차는 국어·미주 3개어(영어·캐나다 프렌치·멕시칸 스패니시) 외에도 유럽 15개국 언어에 대한 음성 인식 기술을 갖췄다.

1. 기아자동차 니로에 적용된 음성인식 기술. 멀티미디어 제어와 내비게이션과 연동한 주소 검색, 전화걸기 기능 등을 지원한다.
<1. 기아자동차 니로에 적용된 음성인식 기술. 멀티미디어 제어와 내비게이션과 연동한 주소 검색, 전화걸기 기능 등을 지원한다.>

음성인식은 온습도 등 음파에 영향을 미치는 날씨 상태도 감안해야 한다. 자동차용 음성인식 기술의 경우 차량의 주행 노이즈도 걸러내야 한다. 현대모비스 관계자는 “자동차 노이즈는 노면 상태, 조수석 노이즈, 에코뿐만 아니라, 지붕을 때리는 빗소리, 천둥소리, 우박, 바람 등 수 백가지 경우의 수가 있다”며 “음성 인식은 결국 해석의 확률을 높이는 싸움”이라고 전했다.

앞으로 완성차 업계가 주목하는 분야는 '자연어 처리 기술'이다. 예를 들어 “가까운 맛집 검색”이라는 말과 “배가 고프네”라는 말을 했을 때, 자연어 처리 기술은 사용자의 평소 행동 패턴 등을 분석해 실제적인 의도와 문맥을 파악하는 방식이다.

박태준 자동차 전문기자 gaius@etnews.com