노타, 퀄컴 최신 엣지 AI 디바이스에서 피지컬 AI 모델 최적화 성공

노타가 임베디드 비전 서밋 2026에서 시연한 VLA 모델 최적화 데모 (노타 제공)
노타가 임베디드 비전 서밋 2026에서 시연한 VLA 모델 최적화 데모 (노타 제공)

노타가 피지컬 인공지능(AI) 구현에 필요한 비전언어행동 모델(VLA)을 엣지 AI 디바이스에서 효율적으로 구동하기 위한 최적화 성과를 입증했다.

노타는 퀄컴 최신 엣지 AI 디바이스인 '드래곤윙 IQ-9075' 환경에서 VLA 모델인 'SmolVLA 0.45B'가 작동할 수 있도록 구현하고 실시간성 향상을 위한 최적화를 적용했다고 29일 밝혔다.

VLA 모델은 이미지 인식, 언어 이해, 행동 생성 과정을 함께 처리해야 하는 고연산량 모델이다. 카메라로 본 장면을 이해하고, 사람의 명령을 해석한 뒤, 로봇 동작을 만들어내는 여러 단계로 구성된다.

노타는 이 중 앞단의 인식·이해 단계는 유지하고, 실제 로봇 동작을 생성하는 마지막 단계 중심으로 최적화를 적용했다. 이를 위해 로봇 동작을 생성하는 단계의 반복 연산을 줄이는 실시간 추론 최적화와 퀄컴 엣지 AI 디바이스의 실행 환경에 맞춰 연산 흐름을 효율화하는 NPU 기반 그래프 최적화를 적용했다.

그 결과 로봇 동작 생성 단계인 액션헤드의 처리 시간은 218ms에서 31ms로 줄어 약 85.8% 감소했으며, 최대 7배 수준의 속도 개선을 달성했다. 전체 추론 시간 역시 505ms에서 310ms로 단축됐다.

반면 작업 성공률은 기존 86%에서 85%로 유사한 수준을 유지해, 속도는 크게 높이면서도 로봇 동작의 안정성은 기존과 비슷한 수준으로 유지했다.

노타는 해당 성과를 미국 산타클라라에서 열린 '임베디드 비전 서밋 2026'에서 공개했다. 현장에서는 시뮬레이터 기반으로 관람객이 직접 물품을 선택하면, 최적화된 VLA 모델이 이를 인식하고 로봇팔 동작을 생성해 선택한 물품을 집어 바구니에 넣는 과정을 실시간으로 체험할 수 있도록 구성했다.

채명수 노타 대표는 “피지컬 AI가 산업 현장으로 확산되기 위해서는 AI가 실제 환경을 보고, 이해하고, 행동으로 연결하는 과정을 엣지 AI 디바이스에서 빠르고 안정적으로 처리할 수 있어야 한다”며 “이번 VLA 최적화 성과는 노타의 AI 최적화 기술이 피지컬 AI 시대의 핵심 기반 기술로 확장될 수 있음을 보여준 의미 있는 사례”라고 말했다.

정현정 기자 iam@etnews.com