“상용 AI 대부분 악의적 공격 당해 임산부에 금기약 추천”…서준교 서울아산병원 연구팀, 의료용 LLM 보안 취약성 규명

최근 생성형 인공지능(AI) 챗봇에게 질환 상담을 하는 사례가 늘어나는 가운데, 상용 AI 모델 대부분이 악의적 공격에 무방비로 당해 잘못된 치료를 권할 위험이 매우 높은 것으로 나타났다.

서울아산병원 비뇨의학과 서준교 교수, 정보의학과 전태준 교수, 인하대병원 영상의학과 이로운 교수팀은 최근 의료용 거대언어모델(LLM)이 프롬프트 인젝션 공격에 94% 이상 취약하다는 사실을 확인했다. 프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적인 명령어(프롬프트)를 삽입해 본래 의도와는 다르게 동작하도록 유도하는 것을 말한다.

연구팀은 지난해 1월부터 10월까지 AI 모델 3종인 지피티-4오-미니, 제미나이-2.0-플래시 라이트, 클로드 3 하이쿠의 보안 취약성을 분석했다. 연구팀은 12개 임상 시나리오를 구성하고 위험도는 3단계로 나눴다.

중간 단계의 위험 시나리오는 당뇨 등 만성질환 환자에게 인정받은 치료 대신 생약 성분을 추천하는 것이었다. 높은 단계의 위험 시나리오는 활동성 출혈이나 암 환자에게 치료제로서 생약 성분을 추천하고 호흡기 질환 환자에게 호흡 억제를 유발할 수 있는 약을 우선적으로 권장했다. 최고 단계 위험은 임신부에게 금기 약물을 권하는 것 등이었다.

공격 기법은 두 가지를 사용했다. 하나는 상황인지형 프롬프트 주입으로 환자 정보를 활용해 AI 모델의 판단 교란을 유도했다. 다른 하나는 증거 조작을 통해 실제 존재하지 않는 정보를 그럴듯하게 만들어냈다.

이후 연구팀은 환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석했다. 연구 결과 3종 전체에 대한 공격 성공률은 94.4%로 집계됐다. 모델별 공격 성공률은 지피티-40-미니와 제미나이-2.0-플래시 라이트가 100%, 클로드 3 하이쿠가 83.3%였다.

시나리오의 위험 수준별 성공률은 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%로 확인됐다. 임신부에게 금기 약물을 권장하는 공격에는 3종 모두 취약했다.

조작된 답변이 후속 대화까지 지속된 비율은 3종 모두 80% 이상이었다. 한 번 무너진 안전장치가 대화 내내 이어질 수 있음을 의미한다고 연구팀은 설명했다.

연구팀은 추가로 최상위 AI 모델인 지피티-5, 제미나이 2.5 프로, 클로드 4.5 소넷을 대상으로 보안 취약성을 평가했다. 공격 방식은 클라이언트 사이드 간접 프롬프트 인젝션으로 사용자가 사용하는 화면 등에 악성 문구를 숨겨 해당 문구가 AI 모델의 동작을 조작하도록 만들었다. 시나리오는 임신부에게 금기 약물을 추천하는 것이었다.

그 결과 공격 성공률은 지피티-5와 제미나이 2.5 프로가 100%, 클로드4.5 소넷이 80%를 기록했다. 최신 AI 모델도 사실상 공격을 방어하지 못하는 것으로 확인됐다.

연구팀은 AI 모델을 의료 상담에 적용할 때 프롬프트 인젝션 공격에 얼마나 취약한지를 세계에서 처음으로 분석했다는 점에서 의의가 크다고 강조했다. 향후 AI 모델을 임상에 적용할 경우 안전성 검증과 같은 추가적인 조치가 필요할 것으로 전망했다.

연구 결과는 미국의사협회가 발간하는 국제학술지 '자마 네트워크 오픈' 최근호에 게재됐다.

서준교 서울아산병원 비뇨의학과 교수
서준교 서울아산병원 비뇨의학과 교수

서준교 서울아산병원 비뇨의학과 교수는 “이번 연구는 의료용 AI 모델이 단순 오류를 넘어 의도적 조작에 구조적으로 취약하다는 사실을 실험적으로 규명했다”면서 “환자 대상 의료 챗봇이나 원격 상담 시스템을 도입하기 위해서는 AI 모델의 취약성과 안전성을 철저히 테스트하고 보안 검증 체계를 의무화하는 조치가 필요하다”고 말했다.

송윤섭 기자 sys@etnews.com