'글자가 그림이 되는 순간' 경북대, 이미지 생성 AI 메커니즘 규명

경북대학교는 대학원 인공지능학과 정희철 교수팀이 인공지능(AI) 이미지 생성 모델 내부에서 텍스트가 시각 정보로 변환되는 메커니즘을 규명하고, 이를 활용해 특정 개념을 정밀하게 제어하는 기술을 개발했다고 26일 밝혔다.

이번 연구의 핵심은 이미지 생성 AI의 핵심 구조인 '교차 주의집중(cross-attention)' 내부 회로를 스펙트럼 성분 단위로 나눠 분석, 텍스트 의미가 이미지 개념으로 전달되는 내부 경로를 밝혀낸 데 있다.

스테이블 디퓨전과 같은 텍스트-이미지 생성 모델은 교차 주의집중을 통해 텍스트 정보를 시각적 특징으로 변환하지만, 내부 작동 방식은 그동안 명확히 설명되지 않았다.

정희철 교수(왼쪽)와 배준현 박사과정생
정희철 교수(왼쪽)와 배준현 박사과정생

연구팀은 교차 주의집중을 '어디에 주목할지'를 결정하는 QK 회로와 '무엇을 생성할지'를 결정하는 OV 회로로 구분해 분석했다. 특히 AI 내부에서 하나의 처리 단위가 여러 개념을 동시에 담당하는 특성을 고려, 전체 구조가 아닌 내부의 '스펙트럼 성분' 단위로 분석 범위를 넓혔다.

분석 결과 '반 고흐 화풍', '네온 조명', '누드'와 같은 개념이 모델 전체에 흩어져 있는 것이 아니라, 특정 10~20%의 스펙트럼 성분에 집중적으로 인코딩되어 있음을 확인했다. 이는 특정 개념을 담당하는 '전용 경로'가 존재한다는 의미라고 연구팀은 설명했다.

연구팀은 이러한 원리를 활용해 '스펙트럼 무효화'라는 개념 제어 기법을 제안했다. 이 기법은 모델을 다시 학습하지 않고도 특정 개념과 관련된 스펙트럼 성분만 선택적으로 제거해, 부적절한 콘텐츠 생성을 차단할 수 있다.

정희철 교수는 “기존 연구들이 '어디에' 개념이 나타나는지를 분석했다면, 이번 연구는 '어떻게' 텍스트가 시각 정보로 변환되는지 내부 메커니즘을 수학적으로 규명한 최초의 시도이다. 신뢰할 수 있는 생성형 AI 개발의 중요한 기반이 될 것”이라고 밝혔다.

이번 연구의 교신저자는 정희철 교수, 제1저자는 인공지능학과 배준현 박사과정생이며, 공동저자로는 인공지능학과 조원용 박사과정생과 컴퓨터학부 이재협 교수가 참여했다. 연구 결과는 지난 20일부터 26일까지 싱가포르에서 열린 인공지능 분야 최정상급 국제학술대회인 'AAAI 2026'에서 발표됐다. 'AAAI 2026'에는 약 2만9000편의 논문이 제출됐으며, 본 심사에 진입한 2만3680편 가운데 4167편(17.6%)만이 채택돼 발표됐다.

대구=정재훈 기자 jhoon@etnews.com