
KT가 한국 문화와 사회 이슈를 반영한 멀티모달 인공지능(AI) 안전성 평가 벤치마크 'KSAFE-MM'을 공개했다. 한국어 기반 멀티모달 안전성 평가 데이터셋으로는 국내 최대 규모다.
KT는 고려대와 공동 개발한 KSAFE-MM을 16일 공개했다. 이 벤치마크는 텍스트와 이미지, 음성 등 다양한 정보를 함께 처리하는 멀티모달 대형언어모델(MLLM)의 안전성을 한국 사회 맥락에 맞춰 평가할 수 있도록 설계됐다.
KSAFE-MM은 글로벌 공통 위험 요소를 한국 문화 맥락으로 바꾼 'KSAFE-MM-G'와 전세 사기, 독도 분쟁 등 국내 고유 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 전체 평가 샘플은 1만4135개다. KT는 이를 통해 젬마(Gemma)와 하이퍼클로바 엑스(HyperCLOVA X) 등 12개 글로벌 멀티모달 모델을 검증했다고 설명했다.
이번 벤치마크의 특징은 자동화 파이프라인이다. KT와 고려대는 민감 주제 수집부터 질문 생성, 합성 이미지 생성, 탈옥 쿼리 생성까지 이어지는 4단계 자동화 체계를 구현했다. 기존 수동 검수 방식보다 비용 부담을 낮추고 구축 효율을 높였다는 설명이다.
KT는 같은 파이프라인을 일본어에 적용한 파일럿 실험도 진행했다. 특정 문화권 전문가가 없어도 현지 특성을 반영한 안전성 평가 체계를 빠르게 만들 수 있는 구조라는 점을 확인했다는 설명이다.
KT는 이번 벤치마크가 실제 AI 서비스 안전성 검증과 레드팀 테스트, 가드레일 모델 평가 등에 활용될 수 있을 것으로 보고 있다. 연구 결과와 데이터는 아카이브와 허깅페이스를 통해 공개됐다.
박재형 KT AX미래기술원 프론티어 AI 랩장 상무는 “안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일”이라며 “KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다”고 말했다.
남궁경 기자 nkk@etnews.com