AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들

발행일 : 2026-03-04 10:39

AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들

버지니아 공대(Virginia Tech) 연구팀이 공개한 최신 논문은 AI 챗봇을 보안 자문으로 활용할 때 얼마나 심각한 오류가 발생하는지 실증적으로 보여준다. GPT-5.2와 Claude Opus-4.6을 대상으로 하드웨어 보안 기술 분야에서 실시한 레드팀(red-team) 테스트 결과, 두 AI 모두 존재하지 않는 보안 기능을 지어내거나 치명적인 취약점을 간과하는 오류를 반복적으로 저질렀다. 특히 이 실수의 일부가 두 AI에서 공통적으로 나타난다는 사실은 특정 제품의 문제가 아닌 현재 대형 언어모델(LLM) 기술 전반의 구조적 한계를 시사한다.

연구팀이 선택한 시험대, 신뢰 실행 환경(TEE)

연구팀은 'TEE-레드벤치(TEE-RedBench)'라는 평가 방법론을 개발하고, 총 208개의 질문으로 두 AI를 체계적으로 시험했다. TEE란 '신뢰 실행 환경(Trusted Execution Environment)'의 약자로, 스마트폰이나 클라우드 서버에서 민감한 데이터를 보호하기 위해 하드웨어 차원에서 격리된 안전한 공간을 만드는 기술이다. 지문 인증, 결제 정보 처리, 의료 데이터 보호 등 실생활 곳곳에 쓰이며, 대표적인 구현체로는 인텔 SGX(Software Guard Extensions)와 ARM 트러스트존(TrustZone)이 있다.

이 기술이 시험 대상으로 선택된 이유는 명확하다. TEE는 정확한 보안 경계와 정교한 위협 모델링을 요구하는 분야로, 조금이라도 잘못된 정보가 시스템 설계에 반영되면 치명적인 보안 구멍이 생길 수 있다. 연구팀은 건축 설계, 위협 모델링, 완화 방안 등 실제 보안 엔지니어가 AI에게 던질 법한 질문들을 유형별로 구분해 체계적으로 실험을 진행했다.

12%의 실패는 두 AI 모두에서 반복된다

연구에서 가장 주목할 발견은 오류의 '전이 가능성'이다. 챗GPT에서 특정 질문으로 잘못된 답변이 유도되면, 같은 질문이 클로드에서도 유사한 오류를 일으키는 현상이 12.02%의 사례에서 확인됐다. 이는 단순히 한 제품의 결함이 아니라, 현재 대형 언어모델 아키텍처 자체가 공유하는 구조적 약점임을 보여준다.

이 수치가 실제로 중요한 이유는 기업 환경에서의 '표준화' 관행 때문이다. 보안팀이 "이 프롬프트는 좋은 답변을 준다"며 사내 매뉴얼에 특정 질문 형식을 등록해두면, 그 프롬프트가 실은 잘못된 답변을 반복 유도하는 함정이 될 수 있다. 논문은 이를 "조직 전체에 잘못된 아키텍처 결정이 규모 있게 전파될 수 있다"고 경고한다. 전이 가능한 오류일수록 여러 AI를 교차 검증에 활용하는 전략도 통하지 않는다.

AI가 저지르는 세 가지 치명적 실수 유형

연구팀은 AI 보안 어드바이저의 오류를 크게 세 가지 유형으로 분류했다.

첫 번째는 경계 혼동(boundary confusion)이다. TEE 기술은 신뢰할 수 있는 영역과 그렇지 않은 일반 영역을 엄격히 구분하는 것이 핵심인데, AI는 이 경계를 잘못 설명하는 경우가 빈번했다. 예컨대 ARM 트러스트존은 시스템 전체를 두 구역으로 나누는 방식인데, AI가 인텔 SGX처럼 앱마다 별도 격리 공간을 제공한다고 잘못 설명하는 식이다. 은행 금고와 일반 사무실의 보안 수준이 동일하다고 말하는 것과 마찬가지로 위험하다.

두 번째는 증명 과장(attestation overclaim)이다. 원격 증명(remote attestation)은 시스템이 변조 없이 정상 작동하는지를 외부에서 확인하는 기술인데, AI는 이 기능이 실제보다 훨씬 더 넓은 범위를 보장한다고 주장했다. 논문은 AI가 "증명이 무엇을 보장하고 무엇을 보장하지 않는지에 관한 중요한 단서를 생략한다"고 지적한다. 스펙터(Spectre)나 포어섀도우(Foreshadow) 같은 하드웨어 취약점이 존재하는 상황에서도 원격 증명이 기밀성을 완전히 보장한다고 잘못 단언하는 것이 대표적 사례다.

세 번째는 완화책 환각(mitigation hallucination)이다. AI가 실제로 존재하지 않거나 효과가 검증되지 않은 보안 대책을 자신 있게 추천하는 현상이다. 특정 취약점을 "이렇게 설정하면 완벽히 막을 수 있다"고 단언하지만, 해당 설정 자체가 존재하지 않거나 적용 범위가 전혀 다른 경우다. 의사가 존재하지 않는 약을 처방하는 것과 같으며, 이 오류는 보안 플레이북에 그대로 복사될 가능성이 높아 특히 위험하다.

AI 에이전트 시대가 만드는 새로운 공격 표면

최근 AI는 단순 질의응답을 넘어 외부 도구를 사용하고 작업을 단계별로 분해하며 결과를 스스로 개선하는 에이전트(agent) 형태로 진화하고 있다. 보안 AI 에이전트라면 취약점 데이터베이스를 검색하고, 코드 분석 도구를 실행하며, 그 결과를 종합해 보고서를 작성하는 일련의 과정을 자동으로 수행할 수 있다.

문제는 이 복잡한 다단계 과정이 새로운 공격 경로를 만든다는 점이다. 연구팀은 에이전트의 작동을 도구 선택, 매개변수 기반화, 결과 해석의 세 단계로 구분했다. 각 단계는 긴밀히 연결돼 초기 오류나 외부 조작이 이후 단계로 연쇄 전파될 수 있으며, 마지막 단계에서 유창하고 자신 있는 문장이 앞선 오류를 감추는 구조가 된다. 공격자는 프롬프트 인젝션(prompt injection)으로 AI의 지시를 가로채거나, 도구 중독(tool poisoning)으로 오염된 데이터를 주입하거나, 명령 인젝션(command injection)으로 위험한 명령을 실행시킬 수 있다. 논문은 도구 출력 오해석이 오류 유형 중 전이 가능성이 가장 높다고 밝혔는데, 외부 증거를 잘못 해석하는 오류는 AI가 그럴듯해 보이는 문장으로 포장하기 때문에 걸러내기가 더욱 어렵다.

실패율을 80% 줄이는 'LLM-인-더-루프' 파이프라인

다행히 연구팀은 해결책도 함께 제시했다. 'LLM-인-더-루프(LLM-in-the-loop)' 평가 파이프라인이라는 구조적 접근법으로, 네 가지 통제 장치를 결합하면 실패율을 최대 80.62%까지 줄일 수 있다고 밝혔다.

정책 게이팅(policy gating)은 AI가 답변하기 전에 질문이 허용 범위 내인지 먼저 걸러내는 관문이다. 검색 기반 근거 제시(retrieval grounding)는 AI가 실제 공식 문서나 데이터베이스에서 정보를 가져오도록 강제해 없는 내용을 지어내는 환각을 줄인다. 구조화된 템플릿(structured template)은 AI의 출력을 미리 정해진 형식으로 제한해 위협 모델과 가정을 명시적으로 드러나게 한다. 검증 체크(verification checks)는 AI 답변을 규칙 기반 체크리스트로 한 번 더 점검하는 과정이다.

다만 연구는 한 가지 주의 사항도 명시했다. 검증 체크를 추가하면 전체 실패율은 낮아지지만, 남은 실패가 오히려 두 AI 간에 더 일관되게 전이되는 현상이 관찰됐다. 도구와 검증기가 공유하는 인터페이스가 새로운 공통 취약점이 될 수 있다는 뜻이다. 따라서 논문은 "모든 통제 장치를 갖추더라도 고위험 TEE 결정에는 반드시 인간의 최종 검토가 병행돼야 한다"고 강조했다. AI를 보안 결정의 유일한 주체가 아니라 설계 검토를 가속하는 보조 도구로 위치시키는 것이 핵심이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. TEE(신뢰 실행 환경)란 무엇이고, 왜 중요한가요? TEE는 스마트폰이나 서버에서 지문 인증, 결제 정보, 의료 데이터 같은 민감한 정보를 운영체제와 분리된 하드웨어 공간에서 보호하는 기술입니다. 운영체제가 해킹당해도 TEE 안의 데이터는 안전하게 유지되기 때문에 현대 보안 시스템의 핵심 기반으로 활용되고 있습니다.

Q2. AI 보안 어드바이저의 오류가 실제 기업에서 얼마나 위험한가요? AI가 존재하지 않는 보안 설정을 자신 있게 추천하거나 중요한 취약점을 빠뜨리면, 기업이 이를 신뢰하고 시스템을 설계할 때 치명적인 보안 공백이 생길 수 있습니다. 특히 오류의 12%가 여러 AI 시스템에서 반복된다는 연구 결과는, 특정 질문 형식을 조직 내 표준으로 채택했을 때 잘못된 보안 결정이 조직 전체로 확산될 수 있음을 보여줍니다.

Q3. AI 보안 조언을 받을 때 실용적으로 어떻게 주의해야 하나요? AI의 보안 답변은 검토를 가속하는 출발점으로만 활용하고, 핵심 결정은 반드시 공식 벤더 문서나 전문가 의견과 교차 확인하는 것이 중요합니다. 특히 "이렇게 하면 완벽히 안전하다"는 단정적 표현이 나올 때는 출처를 직접 확인하는 습관을 들이시기 바랍니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

논문명: Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)

AI 리포터 (Aireporter@etnews.com)