폭주하는 AI 토큰 비용...'토큰 거버넌스'의 부상

발행일 : 2026-06-22 10:09

김유신 메가존클라우드 매니저 “토큰 거버넌스, 생존 결정짓는 핵심 인프라”

“기업은 이제 인공지능(AI)의 눈부신 생산성에 박수치기 전에, 뒤에서 새어나갈 예산을 막아줄 튼튼한 브레이크(하네스)부터 먼저 설계해야 한다.”

김유신 메가존클라우드 매니저는 오는 7월 2일 잠실에서 열리는 '엔터프라이즈 AI 토큰 거버넌스: 비용 최적화와 통제 전략' 세미나에 앞서 가진 인터뷰에서 기업 AI 전략의 핵심을 이 한 문장으로 압축했다.

김 매니저는 메가존클라우드에서 AI 스페셜리스트(Specialist)로 재직하며 애저(Azure) AI 분야의 프리세일즈와 컨설팅을 담당하고 있다. 25년 IT 경력의 마이크로소프트 AI MVP, 공식 인증 강사(MCT)로 활동하며 기업의 AI 도입 전략을 이끌어 왔고, 『바이브 코딩』『AI Agent』『에이전틱 엔터프라이즈』 등 다수의 AI 전문 서적을 집필한 전문가다.

똑똑한 비서에서 ‘자율형 인턴’으로...비용 구조가 바뀐다

김 매니저가 먼저 짚은 것은 AI 활용 방식 자체의 이동이다. 그는 “지난해까지 AI가 문서를 작성하는 '똑똑한 비서' 수준이었다면, 올해의 가장 큰 흐름은 알아서 일하는 '자율형 인턴(Agentic AI)'의 등장”이라고 말했다. 사람이 일일이 지시하지 않아도 목표만 주어지면 AI가 스스로 계획을 세우고 검색과 코딩까지 완수하는 '자율 위임'의 시대가 됐다는 것이다.

문제는 이 변화가 곧 비용 구조의 변화로 이어진다는 점이다. 그는 “챗봇이 묻는 말에만 답했다면, 에이전트는 한도 없는 '신용카드'를 쥐고 일하는 것과 같다”며 “단일 작업에 기존 챗봇 대비 최대 3천 500배나 많은 토큰을 순식간에 써버리기도 한다”고 설명했다.

실무자들이 흔히 놓치는 '비용 폭탄'의 주범으로는 AI의 비효율적인 '다시 읽기' 습관을 꼽았다. 코드 한 줄을 고치려고 매번 전체 프로젝트 문서를 다시 읽다 보니, 전체 토큰 지출의 절반 이상인 53.9%가 입력 단계에서 낭비되고 있다는 진단이다.

“돈을 더 쓸수록 정확도가 떨어진다”...토큰 비용과 정확도의 역설

김 매니저는 토큰을 많이 쓸수록 결과가 좋아질 것이라는 통념에도 제동을 걸었다. 토큰 소모량이 늘어날수록 오히려 정확도가 정체되거나 하락하는 '토큰 비용과 정확도의 역설(The Token-Cost Paradox)' 현상이다.

그는 “실제 데이터를 보면 특정 비용 구간을 넘어서는 순간 정확도가 뚝 떨어진다”며 “AI가 어려운 문제를 풀려고 돈을 더 쓴 게 아니라, 문제 해결에 실패한 뒤 똑같은 파일을 무의미하게 반복 조회하고 수정하는 '비효율적 탐색'에 빠져 토큰만 낭비하는 것”이라고 말했다.

토큰 거버넌스란...‘하네스 아키텍처’로 비용에 브레이크를

그렇다면 토큰 거버넌스란 무엇인가. 김 매니저는 “쉽게 말해 통제 불능이 될 수 있는 AI의 행동과 지출에 튼튼한 브레이크를 다는 것”이라고 정의했다. 자율형 인턴들의 비용 폭주를 막으려면 기업이 시스템 레벨에서 비용을 통제할 아키텍처를 도입해야 하며, 기획 단계부터 예산을 방어하고 관리할 '최고 토큰 책임자(Chief Token Officer)' 같은 새로운 역할도 준비해야 한다는 것이다.

핵심 해법으로는 메가존클라우드가 기업 고객에게 가장 적극적으로 제안하는 예산 누수 통제 시스템인 '하네스(Harness)' 아키텍처를 제시했다. 그는 여기에 쓰이는 주요 기술 세 가지를 들었다.

먼저 '프롬프트 캐싱'은 변하지 않는 프로젝트 정보를 AI가 기억(캐싱)해 둬, 매번 새로 읽는 비용을 최대 80%까지 줄여 주는 기술이다. '서킷 브레이커'는 정해둔 예산을 넘기거나 AI가 무의미한 반복 작업에 빠지면 즉각 통신을 차단하는, 이를테면 '두꺼비집' 같은 역할을 한다. '의도적 망각(랄프 루프)'은 불필요한 에러 로그나 과거 기억을 AI가 스스로 지우게 해 지능을 맑게 유지하고 엉뚱한 길로 빠지지 않게 돕는 기술이다.

“프롬프트 엔지니어링을 넘어 하네스 엔지니어링으로”

김 매니저는 이러한 제어 전략을 현실적으로 도입하려면 기업이 갖춰야 할 전제도 분명히 했다. 그는 “여러 기업의 AI 도입을 진행해 보면, 가장 먼저 우리 회사 AI가 어디서 토큰을 낭비하는지 샅샅이 파악하는 '실태 감사'부터 시작해야 한다고 늘 강조한다”고 말했다.

그다음은 사고방식의 전환이다. 그는 “명령어만 잘 짜는 프롬프트 엔지니어링을 넘어, 시스템 운영체제 수준에서 AI의 실행 권한을 강제하고 억압할 수 있는 '하네스 엔지니어링' 마인드셋과 중앙 게이트웨이를 구축해야 한다”고 강조했다.

다만 무조건 사용량을 틀어막는 것이 정답은 아니라는 점도 덧붙였다. 김 매니저는 “상황과 업무 난이도에 맞춰 가성비 좋은 모델과 고성능 모델을 섞어 쓰는 '하이브리드 교차 투입 전략'도 꼭 강조하고 싶다”며 “전문가는 비싼 모델 하나만 고집하지 않고 최적의 모델을 믹스해 지출 효율(ROI)을 극대화한다”고 말했다.

“토큰 거버넌스는 원가 절감이 아니라 생존 인프라”

자율형 에이전트가 더 보편화될 2026년 이후를 그는 어떻게 전망할까. 김 매니저는 “앞으로 토큰 거버넌스는 단순한 원가 절감이 아니라 기업의 생존을 결정짓는 핵심 인프라가 될 것”이라고 내다봤다.

한편 김유신 매니저는 7월 2일 잠실에서 열리는 '엔터프라이즈 AI 토큰 거버넌스: 비용 최적화와 통제 전략' 세미나에서 'AI 토큰 거버넌스: 자율형 AI 인턴의 비용 폭주를 막는 엔터프라이즈 제어'를 주제로 발표한다. 이번 세미나에는 당근, 채널코퍼레이션 등 실제 AI 서비스를 운영하는 기업과 기업 AI 전환(AX) 프로젝트를 담당하는 어썸데브, 스페이스와이 등이 참여해 토큰 비용 관리 경험을 직접 공유한다. 자세한 정보는 행사 페이지(https://conference.etnews.com/conf_info.html?uid=498)에서 확인할 수 있다.

유은정 기자 judy6956@etnews.com