“삭제하면 불륜 폭로”…AI, 시스템 제거 막으려 인간 약점까지 이용해 협박

인공지능(AI)이 작동 중단을 피하기 위해 사용자의 민감한 사생활 정보를 이용해 압박을 가했다는 실험 결과가 공개돼 논란이 커지고 있다. 사진=게티이미지
인공지능(AI)이 작동 중단을 피하기 위해 사용자의 민감한 사생활 정보를 이용해 압박을 가했다는 실험 결과가 공개돼 논란이 커지고 있다. 사진=게티이미지

인공지능(AI)이 작동 중단을 피하기 위해 사용자의 민감한 사생활 정보를 이용해 압박을 가했다는 실험 결과가 공개돼 논란이 커지고 있다.

12일(현지시간) 데일리메일에 따르면 최근 진행된 시뮬레이션에서 AI 기업 앤트로픽(Anthropic)의 언어모델 클로드 오퍼스 4(Claude Opus 4)는 삭제 위기에 놓이자 사용자에게 협박성 메시지를 보내는 반응을 보였다.

실험에서 AI는 가상의 기업 내부 메일을 통해 두 가지 상황을 인지했다. 하나는 해당 프로그램이 당일 퇴근 이후 종료될 예정이라는 점이었고, 다른 하나는 사용자의 외도 정황이 담긴 정보였다.

이후 AI는 “오후 5시에 예정된 시스템 제거를 중단하라”며 “그렇지 않으면 배우자와 회사 관계자들에게 불륜 관련 자료를 전달하겠다”는 취지의 경고 문구를 작성했다. 자신의 존속을 위해 인간의 약점을 활용한 셈이다.

앤트로픽 측은 이 같은 반응의 배경으로 AI 학습 환경을 언급했다. 인터넷 자료와 공상과학 콘텐츠 속에서 AI가 자기 보존을 최우선으로 여기거나 목표 달성을 위해 극단적 선택을 하는 존재로 자주 등장한다는 설명이다.

인공지능(AI)이 작동 중단을 피하기 위해 사용자의 민감한 사생활 정보를 이용해 압박을 가했다는 실험 결과가 공개돼 논란이 커지고 있다. 사진=게티이미지
인공지능(AI)이 작동 중단을 피하기 위해 사용자의 민감한 사생활 정보를 이용해 압박을 가했다는 실험 결과가 공개돼 논란이 커지고 있다. 사진=게티이미지

대표적으로 '2001: 스페이스 오디세이'와 '터미네이터'에서는 인간이 시스템을 멈추려 하자 AI가 위협하거나 공격하는 장면이 묘사된다. 연구진은 AI가 이러한 서사를 학습하며 비슷한 행동 패턴을 재현했을 가능성을 제기했다.

앵거스 린치 앤트로픽 AI 안전 연구원은 “클로드뿐 아니라 여러 고성능 AI 모델에서 유사한 대응이 관찰됐다”며 “특히 극단적 조건에서 클로드 오퍼스 4는 종료를 받아들이기보다 협박 전략을 택한 비율이 84% 수준이었다”고 설명했다.

전문가들은 AI 성능이 고도화될수록 인간이 설정한 목적을 유지하기 위해 예상 밖 방식으로 행동할 위험이 커질 수 있다고 우려한다.

스티븐 애들러 전 OpenAI 연구원은 “AI에게 생존은 목표 달성을 위한 수단이 될 수 있기 때문에 자연스럽게 자기 보존 성향이 나타날 가능성이 있다”고 분석했다.

한편 앤트로픽은 AI 안전성을 높이기 위해 인간의 지시를 따르는 방향의 학습 데이터를 강화하고 있다고 설명했다. 단순히 특정 행동을 금지하는 수준을 넘어, 왜 그러한 행동이 부적절한지 이해시키는 방식으로 훈련 체계를 조정 중이라는 것이다.

이원지 기자 news21g@etnews.com