[테크 차이나] 딥시크, 추론 가속 기술 'DSpark' 공개…풀스택 프레임워크 'DeepSpec'도 오픈소스화

샘성형 AI 이미지.
샘성형 AI 이미지.

딥시크가 지난 26일 새로운 추측적 디코딩(Speculative Decoding) 프레임워크 'DSpark'를 공개하고, 이를 지원하는 풀스택 오픈소스 프레임워크 'DeepSpec'도 함께 오픈소스로 공개했다. 이번 업데이트는 새로운 모델 아키텍처를 선보인 것이 아니라 기존 딥시크 V4 Pro에 추측적 디코딩 모듈을 적용해 추론 성능을 높이는 데 초점을 맞춘 엔지니어링 업데이트다.

딥시크 V4 Pro DSpark는 기존 딥시크-V4 Pro를 기반으로 하며, 모델 자체 성능을 변경하지 않고 추론 속도와 서비스 효율을 향상시키는 것이 목표다. 딥시크는 DSpark가 이미 딥시크 V4 Flash와 Pro 모델의 실제 온라인 서비스 환경에 적용됐으며, 대규모 언어모델(LLM)의 추론 속도를 크게 개선했다고 밝혔다.

추측적 디코딩은 경량 드래프트 모델(Draft Model)이 여러 개의 후보 토큰을 먼저 생성한 뒤, 대상 모델(Target Model)이 이를 한 번에 검증하는 방식으로 작동한다. 기존 토큰 단위 순차 생성 방식을 병렬 검증 방식으로 전환함으로써 모델 출력 결과를 변경하지 않으면서도 전체 응답 지연 시간을 줄일 수 있는 것이 특징이다.

DSpark의 가장 큰 특징은 '반자기회귀(Semi-Autoregressive)' 생성 구조를 도입한 점이다. 기존 병렬 드래프트 모델은 생성 위치가 뒤로 갈수록 토큰 수용률(Acceptance Rate)이 감소하는 한계가 있었지만, DSpark는 블록 내부 토큰 간 의존성을 모델링하는 경량 직렬 모듈을 추가해 이러한 문제를 완화했다. 이를 통해 병렬 생성의 높은 처리량은 유지하면서도 후반부 토큰의 수용률을 높일 수 있도록 설계됐다.

또 다른 핵심 기술은 하드웨어 인식 신뢰도 기반 예약 검증(Hardware aware Confidence Scheduled Verification)이다. 기존 추측적 디코딩 방식은 생성된 모든 초안 토큰을 검증 대상으로 전송했지만, 실제 서비스 환경에서는 수용 가능성이 낮은 토큰까지 검증하면서 GPU 연산 자원이 낭비되는 문제가 있었다. DSpark는 각 토큰의 수용 가능성을 예측하는 'Confidence Head'를 추가하고, 하드웨어 인식 프리픽스 스케줄러와 결합해 시스템 부하와 GPU 처리량에 따라 검증 길이를 실시간으로 조정한다. 이를 통해 가장 수용 가능성이 높은 토큰에만 연산 자원을 집중할 수 있다.

실제 서비스 적용을 위해 DSpark는 Zero Overhead Scheduling(ZOS)과 연속 CUDA Graph Replay 환경을 지원하는 비동기 스케줄링 메커니즘도 도입했다. 이전 두 단계 예측 결과를 활용해 현재 검증 길이를 결정함으로써 스케줄링 지연을 숨기고 GPU 파이프라인의 유휴 시간을 최소화하면서도 대상 모델 출력 분포를 그대로 유지하도록 설계됐다.

딥시크는 수학 추론, 코드 생성, 일반 대화 등 다양한 벤치마크에서 DSpark가 기존 최신 추측적 디코딩 방식인 Eagle3와 DFlash를 모두 뛰어넘는 성능을 기록했다고 밝혔다. Qwen3 4B·8B·14B 모델을 대상으로 한 실험에서는 Eagle3 대비 평균 수용 길이가 26.7~30.9%, DFlash 대비 16.3~18.4% 향상된 것으로 나타났다.

또 이전 세대 단일 토큰 생성 방식(MTP-1)과 비교했을 때 동일한 전체 처리량을 유지하면서도 사용자 체감 생성 속도는 Flash 모델 기준 60~85%, Pro 모델 기준 57~78% 향상됐다고 설명했다.

DSpark와 함께 공개된 DeepSpec은 추측적 디코딩용 드래프트 모델을 학습하고 평가하기 위한 풀스택 오픈소스 프레임워크다. 데이터 준비부터 모델 학습, 성능 평가까지 전체 과정을 지원하며, 데이터 생성 도구와 드래프트 모델 구현, 학습 코드, 평가 스크립트 등을 모두 포함하고 있다.

DeepSpec의 전체 워크플로는 데이터 준비, 학습, 평가의 세 단계로 구성된다. 데이터 준비 단계에서는 프롬프트 데이터를 내려받고 대상 모델의 응답을 재생성해 목표 캐시(Target Cache)를 구축해야 한다. 기본 Qwen3-4B 구성 기준으로 목표 캐시 용량이 약 38TB에 달하는 만큼 상당한 저장 공간이 필요하다.

학습 단계는 train.sh 스크립트를 실행하면 시작되며, 각 GPU마다 학습 워커가 생성된다. 사용자는 config 디렉터리에서 알고리즘과 대상 모델 구성을 선택하거나 개별 설정을 수정해 학습 환경을 조정할 수 있다. 기본 구성은 단일 노드 8GPU 환경을 기준으로 설계됐으며, GPU 수가 적은 경우 CUDA_VISIBLE_DEVICES 설정을 통해 사용할 GPU 수를 조정할 수 있다.

평가 단계에서는 학습된 드래프트 모델을 활용해 다양한 추측적 디코딩 벤치마크에서 성능을 측정한다. 현재 지원되는 평가 데이터셋은 GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca, Arena-Hard-v2 등으로 수학 추론, 코드 생성, 대화 성능, 종합 질의응답 등 다양한 작업을 포함한다.

현재 DeepSpec은 DSpark, DFlash, Eagle3 등 세 가지 드래프트 모델을 기본 지원하며, 대상 모델은 Qwen3와 Gemma 시리즈를 지원한다.

딥시크는 DeepSpec 공개를 통해 그동안 연구기관마다 개별적으로 구축하던 추측적 디코딩 개발 환경을 표준화된 오픈소스 프레임워크로 제공하게 됐다고 설명했다. 연구자와 엔지니어는 이를 활용해 자체 드래프트 모델을 학습하고 평가할 수 있으며, 반복적인 인프라 구축 과정을 줄여 보다 효율적으로 대규모 언어모델 추론 가속 기술을 연구할 수 있을 것으로 기대된다.

※전자신문과 36케이알이 공동 기획한 기사입니다.

김현민 기자 minkim@etnews.com