[인지과학 패러다임] 음성 인터페이스와 감성 경험

박성준 박사 / SK텔레콤
박성준 박사 / SK텔레콤

아마존 에코를 필두로 음성 인터랙션을 기본으로 하는 디바이스들이 출시되고 있다. 음성 인터페이스는 전통적인 GUI(Graphical User Interfaces)와는 매우 다른데, 예를 들어, 아이콘을 보여주고 사용자의 터치를 유도하는 GUI의 강점(Visual Affordance)을 더 이상 활용할 수 없다. 이 때문에 음성으로 정보를 전달할 때 사용자의 지각 및 인지적인 특성에 대한 이해를 바탕으로 한 설계가 필요하다. 필자는 SKT NUGU의 음성 UI를 설계한 경험을 바탕으로 음성 인터페이스의 특징 및 그 잠재성에 대해서 논의하고자 한다.

음성은 인간 소통의 기본적인 도구이다. 사용자의 몸에 배인 언어 사용 습관을 고려해 설계할 수 있다면 새로운 인터페이스에 대한 학습 부담을 줄일 수 있다. 물론 이 부분이 양날의 칼이 될 수 있다. 사람간의 대화에서 오는 경험에서 기대 수준이 정해지다 보니, 아직은 AI의 한계로 인해 명령을 이해할 수 없거나 기능이 지원되지 않음에도 불구하고 사용자가 발화하는 경우도 많아서 이에 대한 적절한 대응(에러 메세지 및 가이드)도 필요하다.

음성 인터페이스의 가장 큰 실용적인 장점은 단도 직입성(Short-cut Access)에 있다. GUI는 메뉴 트리를 가지고 있거나 여러 화면 단계를 가지고 있어서 트리의 종단이 길어지거나 단계가 많은 경우, 사용자가 의도한 화면까지 도달하는 데에 시간이 걸릴 수 있다. 그러나 음성 인터페이스의 경우에는 한 번의 음성 명령으로 중간 단계를 거치지 않고 의도한 기능을 실행할 수 있다. 예를 들어, 모바일 음악 앱에서 동요를 듣고 싶은 경우, GUI는 홈화면 → 장르 → 어린이 음악 → 동요에 해당하는 메뉴를 여러 번 터치하거나 마우스 클릭을 해야 하지만, 음성 인터페이스에서는 “동요 틀어줘“ 한번으로 중간 과정을 생략하고 바로 기능을 실행할 수 있다.

반면 음성 인터페이스의 커다란 잠재력은 그 감성적인 특징에 있다. 음성은 문화를 막론하고 사람간에 소통하고 설득하며 감성적인 관계성을 맺어나가는데 가장 중요한 수단이다. 또한, 음성을 포함한 청각 인터페이스는 서비스, 제품 및 브랜드의 이미지를 전달하고 인상을 각인하는데 있어서 매우 뛰어난 매체(Modality)이므로, 소비자와의 인터랙션에 있어서 감성적인 요소로 활용하는 것이 중요하다.

[인지과학 패러다임] 음성 인터페이스와 감성 경험

사람은 누군가의 목소리를 들으면 머릿속에 퍼소나(Persona)라는 이미지를 형성하게 된다. 이것은 사람이 아닌 음성 합성음을 들어도 마찬가지이다. 이 과정은 자동적으로 일어나게 되는데, 자동성(Automaticity)의 특징은 그 프로세스가 매우 빠르게(Rapid) 일어나고, 무의식적(Unconsciousness)으로 발생하며, 본인이 의지와는 무관하게 일어난다(Involuntary). 다시 말해, 누군가의 목소리를 들으면 이미지를 형성하는 과정이 무의식적인 수준에서 일어나므로 그 사람의 특징을 언어로 표현할 수도 있지만(“이 사람은 이런 사람인 것 같다.”), 그렇지 못할 수도 있다(Non-reportable). 목소리를 듣고 이미지를 형성하는 요소에는 나이(Age), 경제적인 상태(Economic Status), 교육 정도(Education), 감정의 상태(Emotional State), 얼마나 믿을만한지(Trustworthy), 친절한지(Friendly) 등이 있다. 따라서, 음성을 기반으로 한 인터페이스는 의도를 했든 안 했든 소비자에게 인상을 남길 수 밖에 없고, 이 때문에 음성 인터페이스는 그 존재만으로 성격(Personality)를 수반하게 됩니다. 이 때문에 Amazon Echo, Google Home, Apple Siri, IBM Watson 등 주요 음성 인터페이스는 모두 퍼소나를 먼저 정의하고 이에 적합한 성우를 선정하고 답변을 설계하고 있다.

SKT 음성인식 스피커 NUGU는 다정다감한 친구 같은 Assistant라는 퍼소나를 가지고 있다. 호감을 주는 목소리(Attractiveness)를 주기 위한 요소에는 진솔함과 따뜻함이 있다(McAleer, 2014). 이러한 부분이 느껴질 수 있도록 다소 차분한 느낌으로 녹음이 진행되었고, 답변의 내용과 Tone & Manner도 하나의 퍼소나에 정합될 수 있도록 했다. 전반적으로 타사 대비해서 기계스러운 (AI-like) 목소리가 아닌 사람과 비슷한(Human-like) 목소리로 설계 되었다.

가상인간, 아바타, 로봇처럼 무생물이지만 인간과 비슷한 속성(표정, 음성 등)을 가지고 있는 경우가 실제 인간에게 주는 사회심리적인 효과에 대해서는 많은 연구가 있다. 결론적으로 말해서 인간의 속성에 노출되게 되면 마치 사람에게 하듯이 대하게 된다. 예를 들어, 사회적 촉진 현상(Social Facilitation; Zajonc, 1965)은 대표적인 심리 효과로, 누군가가 옆에 있다면 그 누군가라는 존재(Presence) 때문에 행동이 영향을 받는다는 것이다. 대체적으로 어려운 일이라면 누군가가 옆에 있을 때 혼자 있는 경우보다 더 잘 못하고, 쉬운 일이라면 누군가가 옆에 있을 때 더 잘한다. 이 현상은 가상 인간이나 로봇은 물론이거니와 인간으로 특징 지을 수 있는 단일 속성(음성, 표정 등)에 노출되는 것만으로도 관찰되는 것으로 밝혀졌다(Park & Catrambone, 2009). 또한 그 속성이 인간에 가까우면 가까울수록 그 효과도 강화된다는 실험 결과도 나오고 있다. 물론 너무 인간과 똑같을 때의 부정적인 효과도 있다(Uncanny Valley).

[인지과학 패러다임] 음성 인터페이스와 감성 경험

NUGU의 목소리도 의인성이 강해서 사용자들이 마치 사람인양, 감성을 담아서 발화하는 케이스가 많이 관찰되고 있다(사랑해, 고마워, 우울해 등). 이것은 음성을 기반으로 하는 제품 및 서비스에 대해서 시사하는 바가 크며, 소비자들이 이와 같은 무목적성 발화를 할 때 단순한 대꾸에서 벗어나 교감을 기반으로 하는 고도화된 서비스가 필요하다는 것을 의미한다.

NUGU는 최근 심심해 서비스를 선보이며 간단하게 응답을 주고 받는 감성 서비스를 내놓았고, 앞으로도 위와 같은 음성 인터페이스의 감성적인 특징을 활용할 예정이다. 궁극적으로는 감성 AI에서 표방하는 감성 루프(Affective Loop; 발화 → 교감 → 서비스 제공)의 유인효과를 통해 소비자가 지속적으로 찾는 서비스로 진화해 나갈 것이다.


박성준 spica7601@gmail.com SK텔레콤, 고려대학교 심리학 학사, University of Michigan Human-Computer Interaction 석사, Georgia Institute of Technology 공학심리학(Engineering Psychology) 박사, 삼성전자에서 UX Engineering 그룹 그룹장을 수행했다. 주요 연구분야는 Psychological Science of Robotics Design 및 Interaction with ECA (Embodied Conversational Agent)이며, 관련해 최근 SKT Social Robot Vyo의 UX 및 SKT 누구 스피커의 VUX 디자인을 담당했다. 2012년 IDEA Award UX 부문 Gold를 수상했으며, 주요 역서로는 사용성 테스트 가이드 북 및 다빈치 미래노트가 있다.