dLLM과 SSM Serving 비교
마지막 수정:
dLLM과 SSM은 서로 다른 모델 계열이지만, 이 프로젝트에서는 같은 역할을 한다.
둘 다 기존 Transformer serving의 숨은 가정을 드러낸다.
SSM이 흔드는 가정
SSM/Mamba는 cache의 의미를 바꾼다.
기존 가정:
cache = past K/V blocks
SSM:
cache = conv state + SSM temporal state
즉 SSM은 “과거를 무엇으로 저장하는가”를 바꾼다.
dLLM이 흔드는 가정
dLLM은 generation step의 의미를 바꾼다.
기존 가정:
one step = next token append
dLLM:
one step = canvas denoising or commit
즉 dLLM은 “한 scheduling step에서 무엇이 생성되는가”를 바꾼다.
왜 둘 다 중요한가
vLLM 같은 serving system은 처음에는 decoder-only autoregressive Transformer에 맞춰 이해하기 쉽다.
하지만 frontier 모델은 그 단순한 모양에서 점점 멀어진다.
SSM / hybrid:
cache representation이 달라진다.
dLLM:
generation semantics가 달라진다.
speculative decoding:
한 step에서 여러 후보 token을 다룬다.
multimodal:
text token 외 입력과 encoder state가 들어온다.
이런 모델을 보면 serving engine을 단순히 “KV cache를 가진 decoder loop”로만 이해할 수 없게 된다.
연결
- hybrid-cache-manager: SSM/hybrid 모델이 cache manager를 바꾸는 방식
- vllm-speculative-decoding-expansion: 한 step에서 여러 token position을 다루는 기존 확장
확인
- SSM은 Transformer serving의 어떤 가정을 흔드는가?
- dLLM은 Transformer serving의 어떤 가정을 흔드는가?
- 둘을 같은 큰 주제 아래 묶을 때 중심 질문은 무엇이어야 하는가?