SKT 'A.X K1', 옴니모달로 진화…“소버린 AI 마중물 될 것”

SK텔레콤 초거대 AI 모델 '에이닷엑스(A.X) K1'
SK텔레콤 초거대 AI 모델 '에이닷엑스(A.X) K1'

SK텔레콤 정예팀이 '독자 AI 파운데이션 모델 프로젝트' 2단계에서 옴니모달 모델로 확장을 추진한다. 초거대 AI 모델 'A.X K1'을 텍스트와 이미지를 넘어 음성까지 실시간으로 이해하는 옴니모달 모델로 고도화해 소버린 AI 주도권을 확보한다는 구상이다.

SKT 정예팀은 1차 발표회에서 매개변수 500B 규모의 'A.X K1'을 공개해 프로젝트 2단계 진출을 확정지었다. 2단계에서는 이미지·음성 등 멀티모달 기능을 단계적으로 적용한다.

김건희 서울대 컴퓨터공학부 교수는 22일 SKT 뉴스룸 기고문에서 “초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 최근 음성까지 이해하는 옴니모달 모델로 진화 중”이라고 강조했다.

이번 고도화의 핵심은 '옴니모달'로의 진화다. 옴니모달은 텍스트, 이미지, 영상을 포함해 음성까지 모든 형식의 데이터를 통합적으로 이해하고 생성하는 단계를 의미한다. 오픈AI의 'GPT-4o'가 대표적이다.

김 교수는 음성 대화 구현의 기술적 난도를 강조했다.

그는 “기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 턴(turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시적이고 양방향적인 특성을 가진다”며 “상대방이 말하는 도중 개입하거나 짧은 피드백(백채널)을 주고받는 실시간 상호작용이 필요하다”고 설명했다.

사용자의 감정이나 어조 등 복잡한 표현 방식까지 반영해야 하는 어려움도 짚었다.

김 교수는 “초기에는 음성인식(STT)과 음성합성(TTS)을 결합하는 단계적 방식을 썼지만, 응답 지연과 호흡·감정 등 고유 정보 손실 문제가 있었다”고 지적했다.

그는 이를 극복하기 위한 방안으로 “최근에는 하나의 통합된 언어모델이 음성 정보까지 처리하는 기술이 발전하고 있다”며 “강력한 사전학습된 언어모델을 핵심에 두고 음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 개발의 핵심”이라고 설명했다.

SK텔레콤은 진화된 A.X K1을 기반으로 '모두의 AI' 서비스를 실현할 계획이다.

김 교수는 “SKT의 에이닷, 티맵, B tv 등 생활 밀착형 서비스에서 실시간 음성 대화를 지원하고, 크래프톤의 게임 AI와 포티투닷의 모빌리티 AI 고도화에도 핵심 기술로 활용될 것”이라고 전망했다.

마지막으로 김 교수는 소버린 AI 성공을 위해서는 국가 핵심 데이터 주권을 온전히 활용할 수 있어야 한다고 강조했다.

김 교수는 “국가, 공공, 산업 데이터는 대부분 다양한 형식의 비정형 데이터”라며 “옴니모달 모델은 이러한 데이터를 외부 플랫폼 의존 없이 직접 학습·운영할 수 있게 해준다”고 설명했다. 이어 “성공적 옴니모달 모델 확보는 디지털 주권을 넘어 물리적 인프라 주권까지 강화하는 기반이 될 것”이라고 덧붙였다.

박준호 기자 junho@etnews.com