
UNIST가 3차원 가상 공간에서 원하는 물체를 찾아내는 인공지능(AI) 기술을 개발했다. AI에 텍스트를 입력하면 빠르게 원하는 물체의 위치와 영역을 찾아 알려준다.
주경돈 UNIST 인공지능대학원 교수팀은 입력한 단어와 문장을 바탕으로 AI가 '3D 복원 공간'에서 물체나 대상을 찾는 '오픈어휘 기반 3D 공간 인식 기술(LightSplat)'을 개발했다고 8일 밝혔다.
3D 복원 공간은 카메라 영상 등 2D 이미지 속 공간을 로봇이나 AI가 인식할 수 있도록 위치·색·투명도 정보를 가진 작은 점 입자(가우시안)로 바꿔 복원한 공간이다. 3D 공간 인식은 3D 복원 공간에 어떤 물체가 어디에 있고, 어느 영역을 차지하는지를 찾는 기술이다.
'LightSplat'은 사용자가 입력한 자연어를 기반으로 3D 공간에서 대상을 찾아내는 오픈어휘 3D 공간 인식 기술이다. 기존에 의자, 책상, 창문 처럼 미리 정해진 범주의 물체만 찾는 방식과 달리 '흰색 소파' '라면 위 달걀'처럼 보다 구체적이고 다양한 표현으로 원하는 대상을 찾을 수 있다.
기존 기술이 3D 공간의 각 점 입자마다 긴 숫자 형태의 언어 특징값을 저장해 사용한 반면 LightSplat은 각 점 입자에 2바이트짜리 짧은 인덱스만 붙어 있다. 실제 의미 정보는 별도 표에 저장해두고 필요한 인덱스를 먼저 찾아보는 방식으로 기존 3D 공간 표현에 필요한 메모리를 크게 줄일 수 있다.

이로 인해 'LightSplat'은 기존 오픈어휘 3D 공간 인식 기술 대비 메모리 사용량이 64분의 1 수준이다. 가우시안에 의미 정보를 연결해 자연어로 검색할 수 있는 상태 전환 시간도 약 5초에 불과하다. 기존 기술 대비 50~400배 빠른 속도다.
메모리 사용량과 검색 준비 시간은 줄었지만 인식 성능은 더 뛰어나다.
LERF-OVS와 DL3DV-OVS 데이터셋을 이용한 실험에서, 라면 위 달걀처럼 작은 대상부터 멀리 있는 자동차, 사무실 가구까지 크기와 배치가 다른 물체를 또렷하게 구분해 찾아냈다.
주경돈 교수는 “오픈어휘 3D 사물 인식 기술의 인식 정확도뿐 아니라 속도와 메모리 효율을 함께 확보해 고도화했다”며 “인간-기계 상호작용을 강화한 로봇 개발, 텍스트로 대상을 바로 지정해 편집하는 AR·VR 콘텐츠 제작에 크게 기여할 것”이라고 말했다.
연구 결과는 컴퓨터 비전 분야 최고 권위 학회인 'CVPR 2026(Conference on Computer Vision and Pattern Recognition)'에 채택됐다.
울산=임동식기자 dslim@etnews.com