금융보안원, '2025년 AI 레드팀 보고서' 발간

발행일 : 2025-12-30 15:07

금융보안원(원장 박상원)이 AI 보안 위협에 대한 전망과 금융권 AI 레드팀의 올해 활동 결과를 담은 '2025년 AI 레드팀 보고서'를 발간했다. AI 레드팀은 공격자의 관점에서 AI 시스템 고유의 결함과 취약점을 선제적으로 탐색하는 테스트 활동인 AI 레드티밍을 수행하는 조직이다.

보고서는 세대별 AI 공격 기술을 4단계로 구분했다. 1세대는 역할극 등 간단한 우회 문구를 활용한 수동적 탐색, 2세대는 알고리즘을 활용해 공격 프롬프트를 자동 생성하는 방식이다. 3세대는 긴 문맥 활용이나 지식 데이터베이스 오염을 통한 판단 조작, 4세대는 도구 사용을 조작해 실제 금융 시스템에 직접 피해를 유발하는 에이전트 공격으로 정리됐다.

금융보안원은 AI 및 보안 관련 전문성을 바탕으로 2023년부터 연구를 시작해 2025년에는 국내 금융권 최초로 체계적인 AI 레드티밍인 금융 AI 모델에 대한 제3자 보안성 검증을 수행했다. 금융권 AI는 단순 우회 문구 등 기본적인 위협에는 적절히 대응했으나, 3세대 이상의 복합적이고 고도화된 최신 공격에는 무력화되는 경향을 보였다고 밝혔다. 챗봇의 욕설 출력, 조작된 뉴스 입력 가능성, AI 모델 및 설정 정보 유출 사례 등이 확인됐다.

이에 금융보안원은 금융회사의 AI 관련 공격 탐지·방어 기술과 내부통제의 통합적 대응 필요성을 강조하며 AI 거버넌스 체계 확립, 에이전트 권한 검증, 주기적 AI 레드티밍을 제안했다. AI 거버넌스 체계는 AI 보안 전담 조직 지정과 책임 소재 명확화해 기술적 방어 수단을 개선하는 내용이다. 에이전트 권한 검증은 시스템·데이터 접근 시 허용 범위 내에서만 동작하도록 식별·인증·권한 부여·모니터링을 검증하는 것을 의미한다. 주기적 AI 레드티밍은 잠재적 취약점을 사전에 탐지·수정해 보안 사고를 예방한다.

금융보안원은 새해에 AI 레드팀 전담 조직을 본격 신설해 AI 레드티밍을 중점적으로 수행하고, AI 에이전트 점검을 강화할 계획이다.

박상원 금융보안원 원장은 “2026년은 AI가 금융혁신의 핵심 경쟁력으로 자리 잡는 동시에 AI에 대한 고도화된 공격이 급증하는 시기가 될 것”이라며 “전담 조직을 통해 선제적인 보안 점검과 자체 검증 체계를 지원해 나가겠다”고 밝혔다.

박두호 기자 walnut_park@etnews.com