네이버, 로봇용 인코더 '디바인'에 언어·오디오 접목한다…피지컬 AI 승부수

발행일 : 2026-07-01 15:15

네이버가 시각·음성·언어 정보를 통합 처리하는 로봇 파운데이션 모델(RFM) 기반을 연내 구축한다. 로봇 범용 인코더 '디바인(DIVINE)'에 언어와 오디오 인식 기능을 추가할 예정으로, 로봇의 '두뇌'를 고도화하는 작업이 될 전망이다. 구글 딥마인드와 엔비디아, 테슬라 등 글로벌 빅테크가 RFM 개발 경쟁에 속도를 내는 가운데 이버가 자체 로봇 AI 기술 경쟁력을 확보할 수 있을지 주목된다.

1일 업계에 따르면 네이버랩스 유럽은 연내 디바인에 언어와 오디오 기술을 적용하는 것을 목표로 고도화하고 있다. 향후 실제 로봇에 적용해 성능을 시험할 전망이다.

디바인은 네이버랩스 유럽이 개발한 로봇용 범용 인코더다. 현재 2D 이미지 이해와 3D 공간 재구성, 사람 인식 등 시각 AI 기능을 지원한다. 여기에 언어와 오디오 인식 기능을 더하면 사람의 말과 주변 소리, 시각 정보를 함께 받아들이고 처리할 수 있다.

인코더는 이미지와 음성 등 외부 정보를 로봇이 이해할 수 있는 형태로 변환하는 기술이다. 로봇의 인식과 계획, 행동을 통합하는 RFM에서 입력 처리부 역할을 한다. 대표적인 RFM 유형으로는 시각 정보와 언어 명령을 결합해 로봇 행동으로 출력하는 시각·언어·행동(VLA) 모델이 꼽힌다.

글로벌 빅테크의 경쟁도 치열하다. 구글 딥마인드는 웹 데이터와 로봇 행동 데이터를 함께 학습하는 'RT-2'와 제미나이를 로봇 제어에 활용하는 '제미나이 로보틱스'를 선보였다. 엔비디아는 휴머노이드용 파운데이션 모델 '프로젝트 그루트'와 로봇 학습용 시뮬레이션 플랫폼 '아이작' 생태계를 앞세우고 있다. 테슬라는 자율주행 기술을 휴머노이드 '옵티머스'에 적용하는 전략을 추진한다. LG전자, 현대차그룹은 등 국내 기업도 자체 RFM 개발뿐 아니라 엔비디아와 구글 딥마인드의 생태계를 활용해 로봇 지능을 고도화하고 있다.

네이버 디바인의 강점은 서로 다른 시각 정보를 하나의 인코더에서 통합 처리하는 데 있다. 기능별로 별도 인코더를 사용하는 기존 방식과 달리 여러 시각 모델이 입력 처리부를 공유하도록 해 연산량과 메모리 사용량을 줄일 수 있다.

디바인은 2D 이미지 이해와 3D 공간 재구성, 사람 인식 등 로봇 자율주행에 필요한 시각 AI 기능을 지원한다. 네이버랩스가 개발한 공간 재구성 모델 '더스터'와 사람 인식 모델 '애니' 등 여러 파운데이션 모델이 로봇에서 효율적으로 작동하도록 돕는다.

네이버랩스 유럽은 RFM 분야의 선행 연구 역량도 확보했다. 파운데이션 모델 개념이 학계에서 본격적으로 제시된 2021년 이를 로봇의 의사결정 최적화에 적용하는 연구를 진행했다. 관련 분야 특허 13건을 보유했다. 네이버랩스 유럽 소속 연구자 가운데 누적 논문 피인용 수가 5000건 이상인 연구자는 14명, 1만건 이상인 연구자는 7명이다.

네이버가 디바인을 중심으로 피지컬 AI 경쟁력을 확보할 수 있을지 주목된다.

네이버 관계자는 “비싸고 무거운 하드웨어 없이도 네이버랩스가 만든 두뇌를 탑재해 더 똑똑한 AI 로봇을 만들도록 RFM 기술을 지속 고도화하겠다”고 밝혔다.

변상근 기자 sgbyun@etnews.com