Hybrid Cache Manager
마지막 수정:
Hybrid SSM-Transformer 모델은 cache manager를 어렵게 만든다.
이유는 간단하다.
같은 request 안에 attention layer와 Mamba layer가 함께 있다.
attention layer는 KV cache를 필요로 한다. Mamba layer는 conv state와 SSM state를 필요로 한다.
같은 token, 다른 cache
Transformer-only 모델에서는 모든 layer가 대체로 같은 종류의 KV cache abstraction을 공유한다.
Hybrid 모델에서는 layer마다 cache의 의미가 달라진다.
layer 0: attention -> K/V block
layer 1: mamba -> state
layer 2: attention -> K/V block
layer 3: mamba -> state
이제 cache manager는 “몇 개의 KV block이 필요한가”만 계산할 수 없다. 서로 다른 cache spec을 group으로 관리해야 한다.
Prefix caching도 달라진다
attention prefix caching은 prefix의 KV block을 재사용한다.
Mamba prefix caching은 prefix를 처리한 뒤의 state를 재사용한다.
Hybrid prefix caching은 둘 다 맞아야 한다.
attention prefix reusable?
mamba state reusable?
둘의 block boundary와 scheduler step이 맞는가?
그래서 hybrid serving은 단순히 Mamba layer를 추가하는 문제가 아니다. 기존 vLLM의 KV 중심 가정을 확장하는 문제다.
이 path의 핵심 결론
SSM은 Transformer serving을 대체하는 독립 주제라기보다, Transformer serving의 숨은 가정을 드러내는 좋은 반례다.
기존 가정:
cache = past K/V blocks
SSM 이후:
cache = model architecture별 state representation
이 관점을 잡으면 dLLM, speculative decoding, encoder-decoder, multimodal 모델도 비슷하게 볼 수 있다. 각각은 vLLM의 기본 autoregressive decoder-only 가정을 다른 방식으로 흔든다.
연결
- vllm-mamba-cache-spec: Mamba cache를 별도 spec으로 표현하는 이유
- hybrid-ssm-transformer-why: hybrid 모델이 실전에서 중요한 이유
- vllm-kv-cache-engine-to-worker: 기존 vLLM KV cache 흐름과 비교하기
확인
- Hybrid 모델에서 cache manager가 관리해야 하는 cache 종류는 무엇인가?
- prefix caching이 attention-only 모델보다 어려워지는 이유는 무엇인가?
- SSM을 “KV 중심 serving 가정의 반례”로 보는 것이 왜 유용한가?