[SOTEC 2025] 생성형 AI, 프롬프트 신뢰성 확보가 과제

윤종운 와이즈스톤 수석연구원
윤종운 와이즈스톤 수석연구원
윤종운 와이즈스톤 수석연구원

생성형 AI의 신뢰성 문제가 기술 발전의 핵심 과제로 떠오르고 있다. 20일 서울 코엑스에서 열린 'SOTEC 2025'에서 윤종운 와이즈스톤 수석연구원은 '생성형 AI의 신뢰성을 묻다: 프롬프트 기반 신뢰성 테스트 방안'을 주제로 발표했다.

윤 연구원은 “생성형 AI는 텍스트, 이미지, 음악, 영상 등 다양한 콘텐츠를 생성하지만, 신뢰성 문제가 여전히 해결되지 않은 상태”라며 “사회적 신뢰를 얻기 위해서는 프롬프트 기반의 신뢰성 평가가 필수적”이라고 강조했다. 그는 구글 AI 오버뷰가 오바마 전 대통령을 '미국 최초의 무슬림 대통령'으로 잘못 생성한 사례를 언급하며, 생성형 AI의 오류 가능성을 설명했다.

윤 연구원은 생성형 AI의 신뢰성을 확보하기 위한 방안으로 프롬프트 기반 신뢰성 테스트를 제시했다. 프롬프트는 사용자가 자연어로 입력한 명령에 따라 AI가 응답하는 방식으로, 직관적이지만 사회적 규범을 위반하거나 편향된 정보를 생성할 가능성도 크다고 설명했다.

그는 신뢰성 평가를 위해 사람에 의한 평가, 벤치마크 데이터 세트, LLM(대규모 언어 모델) 평가의 세 가지 방식을 제안했다. 사람에 의한 평가는 사용자의 직관적인 평가와 전문가 검토를 통해 생성물의 신뢰성을 분석하는 방식이며, 벤치마크 데이터 세트는 표준화된 데이터 세트를 활용해 성능을 평가하는 방법이다. LLM 평가는 AI 자체가 평가자로서 생성 결과를 점수화하고, 이를 통해 평가 근거를 제공하는 방식이다.

윤 연구원은 “자동화된 평가 시스템을 통해 생성형 AI의 품질을 일관되게 관리할 수 있다”라며, 한국어에 특화된 KoVicuna, KoAlpaca, Qwen 모델의 활용도 설명했다. 그는 “생성형 AI가 사회적 신뢰를 얻으려면 기술적 완성도를 넘어서 사회적 책임과 윤리적 기준을 충족해야 한다”고 강조했다.

김정희 기자 jhakim@etnews.com