[ICT시사용어] 옴니모달 AI

게티이미지
게티이미지

'옴니모달'(omni-modal)은 텍스트·이미지·음성·비디오 등 다양한 형태의 데이터를 통합된 공간에서 처리하고 학습하는 AI 모델이다.

기존 '멀티모달'(multi-modal) 보다 확장된 개념이다. 멀티모달이 언어 모델에 시각 모델을 결합하는 방식이었다면, 옴니모달은 정보 형태가 달라도 하나의 의미 공간에서 맥락을 통합적으로 이해하는 것이 특징이다.

옴니모달은 멀티모달과 달리 개발 단계부터 텍스트와 이미지, 음성 신호를 하나의 모델 안에서 공동 학습한다. 텍스트·이미지·음성 등 원하는 형태의 입력을 어떤 형태로든지 출력해 자연스럽게 상호작용하는 점이 특징이다.

옴니모달을 적용하면 처음부터 글, 이미지, 음성을 한꺼번에 학습해 주어진 정보를 통합적으로 이해하고 추론하는 것은 물론 상황과 맥락, 환경까지 종합 판단할 수 있다.

텍스트·이미지·음성·비디오 등 다양한 입력 방식을 갖춘 옴니모달은 AI 에이전트 접근성을 낮출 수 있다. 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높기 때문이다. 향후 AI 에이전트 서비스에서 추론 기능과 함께 핵심 AI 기술로 활용될 전망이다.

네이버와 카카오는 AI 에이전트 서비스 장벽을 낮추기 위한 옴니모달 기술 개발에 매진하고 있다.

지난 29일 네이버클라우드는 국내 최초 네이티브 옴니모달 구조를 적용한 파운데이션 모델 '하이퍼클로바 X 시드 8B 옴니'를 오픈소스로 공개했다. 카카오는 멀티모달 모델인 '카나나-o'의 다양한 서비스 적용을 위한 최적화 작업을 진행 중이다. 내년에는 카나나-o를 옴니모달 모델로 고도화할 것으로 알려졌다.

권혜미 기자 hyeming@etnews.com