디노티시아, AI 병목 'KV 캐시' 20배 압축하는 기술 공개

디노티시아, AI 병목 'KV 캐시' 20배 압축하는 기술 공개

디노티시아가 인공지능(AI) 연산 병목으로 지목되는 'KV 캐시'를 최대 20배 압축하는 기술을 개발했다.

디노티시아는 새로운 KV 캐시 압축 기술 'STAR-KV' 논문과 소스코드를 공개했다고 2일 밝혔다.

KV 캐시는 거대언어모델(LLM)이 이전에 읽은 문맥을 다시 계산하지 않도록 그래픽처리장치(GPU)에 저장해두는 임시 기억 공간이다. AI가 진화하면서 모델이 처리해야 하는 정보가 커지면서 KV 캐시도 함께 늘어나 GPU 메모리 사용량과 추론 비용에 영향을 주는 병목으로 지목된다. AI 업계가 KV 캐시 압축에 주목하는 이유다.

디노티시아 STAR-KV는 저랭크 압축만으로 KV 캐시를 최대 75% 줄이는 성과(논문 실험 기준)를 달성했다. 혼합 정밀도 양자화 기법을 결합, 전체 KV 캐시를 최대 20배까지 압축할 수 있었다.

해당 기술은 KV 캐시 압축뿐만 아니라 맞춤형 GPU 커널을 활용해 연산 속도도 향상시켰다고 회사 측은 설명했다. AI가 스스로 데이터를 선택해 가중치를 부여하는 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상시켰다고 부연했다.

STAR-KV는 디노티시아와 미국 UC 샌디에이고 VVIP 랩과 공동으로 진행한 연구 성과다. 논문은 세계적 권위의 머신러닝 학회 'ICML 2026' 스포트라이트 논문으로 채택됐다.

디노티시아는 향후 STAR-KV가 실제 AI 서비스 환경에서 활용될 수 있도록 기술을 고도화할 방침이다. vLLM 등 오픈소스 LLM 추론 프레임워크에서 활용할 수 있도록 할 계획이다.

정무경 디노티시아 대표는 “AI가 더 긴 맥락을 더 낮은 비용으로 빠르게 처리하는 기술들이 발전하고 있다”며 “STAR-KV는 그 핵심 병목인 KV 캐시 용량 및 어텐션 처리속도 문제를 실질적으로 해결하는 기술로, 디노티시아는 오픈소스화로 AI 추론 생태계에 기여하겠다”고 말했다.

권동준 기자 djkwon@etnews.com