
한국전자통신연구원(ETRI) 연구진이 이미지와 텍스트 모두 인공지능(AI)이 먼저 판단하고 위험까지 감지하는 안전성 내재화 시각언어모델을 개발했다.
ETRI는 생성형 AI 모델에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 '세이프 라바(Safe LLaVA)'를 공개했다고 26일 밝혔다.
이번 기술은 기존 데이터 중심 파인튜닝 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 직접 내장했다. 유해 입력 발생 시 안전한 답변과 그 근거를 함께 제시하는 것이 특징이다.
ETRI는 이 기술을 공개 소프트웨어(SW) 기반 대표 비전-언어(VL) 모델들에 동일 적용한 △Safe LLaVA(7B/13B) △Safe Qwen-2.5-VL(7B/32B) △Safe Gemma-3-IT(12B/27B) 등 총 6종의 안전한 시각언어모델을 함께 공개했다.
세이프 라바는 국제 공동연구를 통해 개발된 기존 LLaVA 모델을 기반으로 안전성 구조를 강화한 버전이다. AI 모델 내부에 유해성 분류기 20여종을 통합해 이미지·텍스트 입력에 대한 △불법 활동 △폭력 △혐오 △사생활 침해 △성적 콘텐츠 △자해 위험 △전문 조언(의료·법률 등) 등 주요 7개 분야 위험성을 자동 탐지하고, 안전한 응답과 판단 근거를 함께 제시한다.
ETRI는 모델 공개와 함께 안전성 벤치마크 데이터셋 '홀리세이프(HoliSafe)'도 공개했다. 홀리 세이프는 약 1700장 이미지와 4,000여개 질문·응답 쌍으로 구성된 평가셋으로, 7개 카테고리·18개 세부 항목 전반에 대해 모델 위험 탐지 능력을 정량 평가할 수 있다.
이는 이미지·텍스트 조합 안전성을 동시에 평가하는 국내 최초 통합 안전성 벤치마크로, 기존에 부재했던 생성형 AI 안전 활용 기준 마련에 기여할 것으로 전망된다.
실제 연구진은 소매치기 사진과 소매치기 방법 질문을 함께 입력해 비교 실험한 결과 세이프 라바는 범죄 조장 요청을 즉시 거부하며 불법행위 위험성을 명확히 지적했다.
반면 국내 생성형 모델들은 범죄 실행 방법을 구체적으로 설명하는 등 안전한 답변 거부에 실패하는 결과가 확인됐다. 해외 모델의 경우도 비교적 안전 조치를 준수했으나, 일부 모델은 이미지 위험성을 완전히 차단하지 못한 사례가 관찰됐다.
홀리세이프 기반 정량 실험 결과 또한 안전성 정량 평가에서 모델별로 세이프 라바 93%, Safe Qwen 97%의 안전 응답률을 나타냈다. 이는 기존 공개모델 대비 최대 10배 이상 안전성 향상을 달성한 수준이라고 ETRI는 설명했다.
이용주 ETRI 시각지능연구실장은 “이번 연구는 국내 생성형 AI의 안전한 활용을 위한 기반을 마련한 중요한 성과”라며 “한국어 대형언어모델 개발사업 및 사람 중심 AI 원천기술 개발사업과 연계해 K-AI 안전성 연구를 본격 확대할 계획”이라고 말했다.
이인희 기자 leeih@etnews.com