
노타가 '차세대 프레임 예측' 기술로 사람과 유사한 능력을 가진 피지컬 인공지능(AI) 개발을 지원한다.
AI가 인식한 사람 또는 물체의 다음 행동을 예측하는 기술로 기존 비전 AI 약점을 해결했다. 비전언어모델(VLM)을 비전언어행동(VLA) 모델로 진화하는 핵심 기술로 글로벌 학회에서 인정받았다.
AI 경량화·최적화 전문 기술기업 노타는 최근 단일 이미지 인코더에 지식을 순차 주입해 프레임 예측 훈련을 진행, 반복적인 간접 동적 학습으로 AI가 보고 있는 사람이나 사물의 다음 행동을 예측하게 고도화하는 기술을 개발했다.
사람이나 동물이 사람과 물체 등을 보고 다음 움직임을 예측하듯 AI가 다음 행동을 예측할 수 있게 하는 기술이다. 보다 사람 같은, 좀 더 진화된 피지컬 AI 적용을 가능하게 만드는 핵심 기술로 활용될 전망이다.
김태호 노타 최고기술책임자(CTO·창업자)는 “사람은 정지해있는 물체나 사람을 보면 곧 움직이겠구나를 인지할 수 있지만 AI는 다음 움직임에 대한 예측 정보가 없다”며 “사람의 예측 정보를 알 수 있게 한다는 측면에서 연구를 진행했다”고 말했다.
현재 공개된 대다수 VLM과 VLA 모델은 앞에 보이는 사람과 물체가 무엇인지 인지만 하는 수준이다. 동적 활용이 제한적인 상황이라는 의미다. 명령된 행동은 수행할 수 있으나 돌발 상황 발생 시 대처능력 등은 현저히 떨어질 수밖에 없다.
노타는 이러한 한계를 해소하기 위해 사람과 같이 타인 또는 물체를 보면 다음 움직임을 이해할 수 있도록 비전 학습을 거듭했다. 비전 AI에 시간적인 사전 지식을 표준화, 단일 이미지를 지속 학습하고 경량화해 30프레임(0.5초)의 보폭에서 예측 성능이 최적화되는 결과값을 확보했다.
AI가 시간 흐름에 비례해 움직임을 예견할 수 있도록 만든 성과다. 노타는 해당 연구결과를 '신뢰성을 고려한 훈련 패러다임으로 차세 프레임 예측을 활용한 비전 인코더 개발 기술' 논문을 게재했다. 또 세계 최고 권위의 AI학회로 평가되는 'AAAI 2026'에서 연구 성과를 공유했다.
노타는 후속 연구로 대규모 또는 다양한 비디오 데이터셋으로 확장해 보다 보편적인 현상을 학습하고, VLA 모델에 통합해 로봇 작업 성공률 증가와 실패 감소에 미치는 영향을 정량화할 계획이다.
박종진 기자 truth@etnews.com