
네이버클라우드가 자사 독자 인공지능(AI) 파운데이션 모델이 100% 자체 기술로 개발한 '프롬 스크래치'라고 일축했다. 중국 알리바바 AI 모델 '큐원 2.5'를 활용했다는 일각의 지적을 반박한 것이다.
네이버클라우드는 “인간 두뇌에 해당하는 AI 파운데이션 모델 핵심 엔진을 프롬 스크래치 단계부터 100% 자체 기술로 개발했다”며 “한국어와 한국 사회의 복잡한 맥락을 가장 깊이 이해하는 독자 경쟁력을 확보해왔다”고 밝혔다.
단, 글로벌 기술 생태계 호환성과 전체 시스템의 효율적인 최적화를 고려해 검증된 외부 인코더를 전략적으로 채택했다고 설명했다. 기술 자립 부족이 아닌 이미 표준화된 고성능 모듈을 활용, 전체 모델 완성도와 안정성을 높이기 위한 고도의 엔지니어링 판단이라는 게 네이버 측 주장이다.
사실상 독자 AI 옴니모달 모델 개발 과정에서 중국 알리바바 큐원 2.5의 비전·오디오 인코더를 활용했다는 의미다. 인코더는 입력된 문장을 문맥으로 변환하고 이를 바탕으로 다양한 자연어 처리 작업 수행을 돕는 AI 모델 개발 핵심 요소다.
네이버클라우드는 AI 모델이 시각 정보를 이해할 수 있는 신호로 변환하는 시신경 역할을 큐원 비전 인코더에 맡긴 것일 뿐, AI 두뇌 역할을 하는 파운데이션 모델은 자체 기술이라는 점을 분명히 했다. 또 네이버가 'VU클립' 등 독자 비전 기술력을 보유하고 있다고 부연했다.
네이버클라우드는 “외부 인코더 채택은 글로벌 AI업계에서도 시스템 확장성을 위한 보편적 설계 표준으로 자리 잡고 있다”며 “알리바바 큐원2-오디음가 오픈AI 음성인식 기술 '위스퍼'를, 큐원3-옴니는 구글의 이미지 인식 기술 'SigLIP2'를 기반으로 구축했다”고 설명했다.
또 이번 모델의 핵심 기여는 통합 아키텍처 완성에 있다고 강조했다. 텍스트·음성·이미지를 하나의 유기적 구조 안에서 동시에 이해하고 생성하도록 설계하는 게 멀티모달 AI의 가장 본질적이고 어려운 과제라는 것이다.
네이버클라우드는 이번 기술 선택 사항과 라이선스 정보를 허깅페이스와 테크리포트에 공개했다며 앞으로도 기술개발 과정 투명성을 유지할 것이라고 강조했다.
이러한 해명에도 업계·학계 일각에서 네이버클라우드의 이번 논란 본질은 인코더가 아닌 '가중치(웨이트)'에 있다는 지적이 나온다.
네이버클라우드가 독자 AI 모델 개발 과정에 필요한 가중치를 큐원 2.5에서 그대로 가져왔다면 프롬 스크래치로 개발하지 않았을 가능성이 있다는 취지다.
박종진 기자 truth@etnews.com, 현대인 기자 modernman@etnews.com