[에듀플러스]숭실대 최혜송 교수 연구팀, AI·컴퓨터비전 분야 세계 3대 국제학술대회 ECCV 2026 논문 3편 채택

발행일 : 2026-06-24 14:47

숭실대학교는 최혜송 전자정보공학부 교수 연구팀의 논문 3편이 인공지능(AI)·컴퓨터비전 분야 세계 최고 권위 국제학술대회인 ECCV 2026(European Conference on Computer Vision 2026)에 채택됐다고 24일 밝혔다.

ECCV는 CVPR, ICCV와 함께 컴퓨터비전 분야 세계 3대 국제학술대회로 꼽히며, 전 세계 연구자들이 최신 연구 성과를 발표하고 공유하는 학술 교류의 장이다. 엄격한 심사를 거쳐 우수한 연구만이 채택되는 만큼 이번 성과는 숭실대의 인공지능·컴퓨터비전 분야 연구 역량을 국제적으로 인정받은 사례로 평가된다.

특히 이번에 채택된 논문 가운데 2편은 글로벌 빅테크 기업인 메타(Meta)와 네이버(NAVER) 연구진과 공동으로 수행한 연구로, 최혜송 교수가 두 논문의 제1저자로 참여했다. 세계 최고 수준의 산업계 인공지능 연구진과 협력해 거둔 성과라는 점에서 의미가 크다.

첫 번째 논문인 'ECC: Encoder-Centric Corruption for Fine-Grained Vision in VLMs'는 메타의 차성민 연구원과 캐나다 브리티시컬럼비아대학교(UBC)의 이광무 교수 연구팀이 함께 참여한 국제 공동연구다. 연구팀은 비전-언어 모델(VLM)이 세밀한 시각 정보를 충분히 반영하지 못하는 한계를 개선하기 위해 '인코더 중심 손상(Encoder-Centric Corruption, ECC)' 기법을 제안했다.

두 번째 논문인 'Isotropic Embedding Perturbations for Robust Vision Language Encoders'는 네이버 인공지능 연구진과 공동으로 수행한 연구다. 연구팀은 기존 데이터 증강 기법의 한계를 극복하기 위해 임베딩 공간에서 작동하는 새로운 증강 기법인 'Aether'를 제안했다.

세 번째 논문인 'Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision'은 통합 멀티모달 모델(Unified Multimodal Model)의 정렬 성능 향상을 위한 연구다. 최혜송 교수는 해당 연구에 공저자로 참여했으며, 의미 기반 시각 단서와 손상 입력을 활용해 생성 품질과 교차 모달 정렬 성능을 동시에 높이는 방법을 제안했다.

최 교수는 “이번 성과는 메타와 네이버 등 글로벌 연구진과의 협력을 통해 이뤄낸 결과”라며 “앞으로도 비전-언어 모델과 멀티모달 인공지능 분야의 핵심 연구를 지속해 학계와 산업계 발전에 기여하겠다”고 말했다.

권미현 기자 mhkwon@etnews.com

에듀플러스