vLLM Speculative Decoding Expansion
마지막 수정:
Speculative decoding은 단일 모델 추론보다 contract가 복잡하다.
기본 구조는 proposer와 verifier다.
proposer model:
여러 candidate token을 빠르게 제안한다.
verifier model:
제안 token을 검증하고 accept/reject한다.
이 경우 engine core는 단순히 “다음 token 하나 생성”만 관리하지 않는다.
draft token 수
proposal metadata
verification target
accepted token count
rejected token 이후 재개 위치
Worker contract도 확장된다.
single-model decode:
input token -> sampled token
speculative decode:
proposal tokens -> verifier forward -> accepted/rejected tokens
이 카드의 목표는 speculative decoding을 별도 기능으로 외우는 것이 아니라, engine core와 GPU worker 사이의 request/response 형식이 어떻게 바뀌는지 보는 것이다.
확인
- Speculative decoding에서 proposer와 verifier의 역할은 어떻게 다른가?
- Engine core가 accepted token count를 알아야 하는 이유는 무엇인가?
- 단일 모델 decode와 비교해 worker output에는 어떤 정보가 추가되어야 하는가?