[창간 37주년:기술독립선언II] 네이버·카카오 AI, 구글 듀플렉스와 얼마나 가깝나

지난해 개발자 콘퍼런스 '구글 I/O'에서 공개된 '듀플렉스'는 기존 인공지능(AI) 기술 대비 혁신적으로 진화된 모습을 보여줬다. AI가 마치 사람처럼 식당이나 미용실을 예약하는 모습에 많은 사람이 충격을 받았다. 기계음이 전혀 섞이지 않은 자연스러운 음성합성기술과 '음' '으흠' 등 추임새까지 넣는 AI 모습에 윤리적 논쟁까지 격발됐다. 영화 '그녀(her)'에 등장하는 AI 비서 '사만다' 구현이 머지않았다는 반응이 나온다.

2011년 애플 '시리'에서 출발한 대화형 AI는 날로 기술력이 진보하고 있다. 음성인식을 통한 단순 질문이나 명령이 아니라 자연스러운 대화에 상당히 근접했다. 최근 국내 기업 네이버나 카카오가 내놓는 AI 기술 방향성도 이와 상당히 흡사하다. 거부감 없는 음성과 단어를 선택하고 인간과 매끄러운 대화를 유도한다.

그린닷 음성 검색에 적용된 인공지능 대화 시스템
그린닷 음성 검색에 적용된 인공지능 대화 시스템

네이버는 지난달 말 사내독립기업(CIC) 글레이스를 통해 다양한 AI 기술을 선보였다. 전화 자동응답시스템(ARS)에 AI 기술을 접목한 'AI콜'이 가장 많은 주목을 받았다. 매장 직원을 대신해 전화를 받고 예약자 육성 요청을 들어 예약 내역을 처리해 준다. 이를 구현하려면 음성인식(CSR), 자연어처리(NLP), 음성합성기술(CSS)이 종합적으로 필요하다.

네이버 음성합성기술은 이미 상당한 수준이다. 자체 개발한 엔보이스(nVoice)에서 세계 최고 수준 HDTS(Hybrid Dnn Text-to-Speech) 기술을 확보하고 있다. 약 4시간만 녹음하면 목소리 주인과 구분하기 어려운 합성음을 만들어낸다. 이미 '클로바' 기기와 모바일 애플리케이션(앱)에서 배우 유인나 목소리를 설정할 수 있다. 이는 AI콜에도 활용, 의식하고 듣지 않으면 기계와 대화라는 사실을 사람이 인지하기 어려운 수준이다.

대화형 AI뿐만 아니라 현재 네이버는 서비스 영역 대부분에 AI 기술을 접목하고 있다. 큰 카테고리로 구분하면 △콘텐츠 추천 △음성인식 △음성합성 △광학적 문자 판독(OCR) △자연어처리 △컴퓨터 비전 등이다. 이 기술들은 모두 클로바 핵심 모델과 엔진으로 활용된다. 예컨대 콘텐츠 추천은 뉴스(AiRS), 쇼핑(AiTEMS), 장소(SmartAround), 음악(Vibe)에 적용됐다.

네이버는 검색 서비스 기반으로 성장한 기업이다. 그러나 현재는 검색창에 텍스트를 입력하는 전통적인 행위만 검색이라고 정의하기 어려워졌다. 음성, 이미지, 위치정보를 입력해도 적합한 값을 출력해 주는 수준까지 발전했다.

이 때문에 검색엔진 기대 역할도 과거보다 커졌다. 단순히 검색어와 유사한 단어가 포함된 문서를 찾는 것에서 확장돼 이용자가 검색어를 입력한 '의도'를 파악하기 위해 개발을 거듭하고 있다. 예컨대 '펜타곤'이라는 같은 검색어를 입력해도 어떤 이용자에게는 미국 국방성 정보를, 다른 이용자에게는 아이돌 그룹 펜타곤 정보를 보여주는 식이다. 이전 검색 이력을 AI가 분석해 검색어 맥락을 파악하는 방식이다. 네이버가 2018년 검색 조직과 클로바(AI) 조직을 합쳐 '써치&클로바' 사내독립기업(CIC)을 신설한 것도 같은 이유에서다.

[창간 37주년:기술독립선언II] 네이버·카카오 AI, 구글 듀플렉스와 얼마나 가깝나

카카오 역시 올해 5월부터 AI 및 검색 핵심 기술이 결집된 조직인 AI랩을 별도 CIC로 출범시켰다. 카카오 AI랩은 지난달 말 개발자 콘퍼런스를 통해 '디플로(DFLO)' 프로젝트를 공개했다. 매끄럽고 자연스러운 상호 대화가 가능한 AI 시스템 구현을 목표로 잡았다. 프로젝트 출시 시기나 구체적인 스펙은 미정이다. 그러나 식당 예약, 회의 일정 예약 등에서 출발해 콜센터 등 범위가 넓은 과업으로 고도화를 진행할 예정이다.

디플로를 포함한 카카오 AI 기술 지향점은 사용자 요구에 정확한 답변을 제공하는 것이다. 이를 구현하기 위해 올해 MRC(Machine Reading Comprehension), 미니미(Minimi), 심슨(simpson) 기술 개발에 가장 집중했다.

과거 AI와 대화는 사용자와 기계의 약속된 대련과 유사했다. 미리 정해진 질문 값과 일치하지 않으면 '질문을 이해할 수 없어요'라는 답을 내놨다. MRC는 정형화되지 않은 자연어 문장에서 의미와 의도를 뽑아내는 기술이다. “마우스를 누가 만들었어?”라는 질문에서 '마우스 발명자' '마우스 창제'와 같은 검색어로 검색을 통해 답을 얻어낸다. 검색 결과에서 순위를 매겨 최고값을 받은 내용을 답변으로 제시한다.

미니미 기술은 카카오 AI의 독특한 방향성을 보여준다. 목적이 없는 대화, 즉 '스몰토크'를 구현하는 기술이다. AI가 보다 사람처럼 느껴지도록 대화를 부드럽게 하는 역할을 전담한다. 대답할 수 없는 질문에 “네?”라는 답변만 나온다면 이용자는 대화에 거부감을 느낀다. 미니미는 “몇 살이야?”라는 질문에 “노코멘트, 젊다는 것만 알아주세요”라고 답한다. 이는 질문자가 나이를 궁금해 하는 것이 아니라, 그저 가벼운 대화를 원한다는 것을 AI가 파악해야 나올 수 있는 답이다.

심슨 역시 질문자 문장이 품은 뜻을 파악해 내는 자연어 처리 기술이다. 이용자 문의가 미리 저장해놓은 질문과 얼마나 유사한지 예측한다. '목을 축이고 싶다'는 질문을 듣고 수천개 문장 중 '마실 것을 추천해 달라'는 뜻과 같은 문장임을 이해해야 한다. 이는 콜센터와 같이 어느 정도 질문이 한정된 서비스 영역에서 활발하게 활용될 수 있다. 응대 인력이 부족해 전화연결까지 수십분 동안 지연되는 문제나, 고객 폭언 때문에 감정 노동에 시달리는 콜센터 직원 처우 문제를 보완할 수 있다. 이미 카카오는 이 기술을 자사 고객센터 응대에 부분적으로 적용한 상태다.

이형두기자 dudu@etnews.com