
터보퀀트(Turbo Quant)는 구글이 공개한 인공지능(AI) 메모리 최적화 기술이다. 거대언어모델(LLM)이 긴 대화나 문맥을 처리할 때 사용하는 핵심 메모리 영역인 'KV 캐시(Key-Value Cache)'를 압축해, 같은 장비로 더 많은 데이터를 처리할 수 있도록 돕는 기술이다.
터보퀀트는 AI가 이전 대화 맥락을 기억하기 위해 임시 저장하는 KV 캐시를 대폭 줄이는 데 초점이 맞춰져 있다. 기존에는 문맥이 길어질수록 메모리 사용량이 급격히 늘어나는 한계가 있었지만, 터보 퀀트는 이를 3~4비트 수준으로 양자화해 저장 공간을 최소 6분의 1 수준까지 줄일 수 있도록 설계됐다. 메모리 부담은 크게 낮추면서도 성능 저하는 거의 없다는 것이 특징이다.
작동 방식은 크게 두 단계다. 먼저 데이터의 핵심 구조와 방향성을 압축해 전체 부피를 줄이고, 이후 압축 과정에서 생긴 미세한 오차를 보정해 정확도를 유지한다. 쉽게 말해 짐을 먼저 크게 압축한 뒤 남은 틈까지 다시 정리해 공간 효율을 높이는 방식이다. 별도 재학습 없이 기존 AI 모델에 바로 적용할 수 있다는 점도 강점으로 꼽힌다.
터보퀀트가 주목받는 이유는 AI 서비스 운영 효율을 크게 높일 수 있어서다. 메모리 사용량이 줄면 같은 서버 자원으로 더 긴 문맥을 처리하거나 더 많은 동시 사용자를 수용할 수 있다. 구글은 엔비디아 H100 GPU 기준으로 일부 연산에서 최대 8배 속도 향상 효과를 확인했다고 설명했다. AI 인프라 비용 부담이 큰 기업 입장에서는 운영비 절감 효과도 기대할 수 있다.
업계에서는 터보퀀트를 단순한 압축 기술이 아니라 AI 인프라 경쟁 구도를 바꿀 수 있는 변수로 보고 있다. 메모리 병목 현상을 줄이면 고대역폭메모리(HBM)와 D램 의존도를 일부 완화할 수 있다는 전망이 나오면서 반도체 업계도 예의주시하고 있다. 스마트폰·노트북처럼 메모리가 제한된 기기에서도 더 무거운 AI 모델을 구동할 가능성을 넓혀 온디바이스 AI 확산을 앞당길 기술로도 평가된다.
남궁경 기자 nkk@etnews.com