vLLM Speculative Decoding Expansion

마지막 수정: 2026년 6월 30일

inferencevllmspeculative-decodingmulti-model

Speculative decoding은 단일 모델 추론보다 contract가 복잡하다.

기본 구조는 proposer와 verifier다.

proposer model:
여러 candidate token을 빠르게 제안한다.

verifier model:
제안 token을 검증하고 accept/reject한다.

이 경우 engine core는 단순히 “다음 token 하나 생성”만 관리하지 않는다.

draft token 수
proposal metadata
verification target
accepted token count
rejected token 이후 재개 위치

Worker contract도 확장된다.

single-model decode:
input token -> sampled token

speculative decode:
proposal tokens -> verifier forward -> accepted/rejected tokens

이 카드의 목표는 speculative decoding을 별도 기능으로 외우는 것이 아니라, engine core와 GPU worker 사이의 request/response 형식이 어떻게 바뀌는지 보는 것이다.

확인