dLLM과 SSM Serving 비교

dLLM과 SSM은 서로 다른 모델 계열이지만, 이 프로젝트에서는 같은 역할을 한다.

둘 다 기존 Transformer serving의 숨은 가정을 드러낸다.

SSM이 흔드는 가정

SSM/Mamba는 cache의 의미를 바꾼다.

기존 가정:
cache = past K/V blocks

SSM:
cache = conv state + SSM temporal state

즉 SSM은 “과거를 무엇으로 저장하는가”를 바꾼다.

dLLM이 흔드는 가정

dLLM은 generation step의 의미를 바꾼다.

기존 가정:
one step = next token append

dLLM:
one step = canvas denoising or commit

즉 dLLM은 “한 scheduling step에서 무엇이 생성되는가”를 바꾼다.

왜 둘 다 중요한가

vLLM 같은 serving system은 처음에는 decoder-only autoregressive Transformer에 맞춰 이해하기 쉽다.

하지만 frontier 모델은 그 단순한 모양에서 점점 멀어진다.

SSM / hybrid:
cache representation이 달라진다.

dLLM:
generation semantics가 달라진다.

speculative decoding:
한 step에서 여러 후보 token을 다룬다.

multimodal:
text token 외 입력과 encoder state가 들어온다.

이런 모델을 보면 serving engine을 단순히 “KV cache를 가진 decoder loop”로만 이해할 수 없게 된다.

연결

hybrid-cache-manager: SSM/hybrid 모델이 cache manager를 바꾸는 방식
vllm-speculative-decoding-expansion: 한 step에서 여러 token position을 다루는 기존 확장

확인

SSM은 Transformer serving의 어떤 가정을 흔드는가?
dLLM은 Transformer serving의 어떤 가정을 흔드는가?
둘을 같은 큰 주제 아래 묶을 때 중심 질문은 무엇이어야 하는가?

SSM이 흔드는 가정

dLLM이 흔드는 가정

왜 둘 다 중요한가

연결

확인

연결된 카드