Hybrid Cache Manager

Hybrid SSM-Transformer 모델은 cache manager를 어렵게 만든다.

이유는 간단하다.

같은 request 안에 attention layer와 Mamba layer가 함께 있다.

attention layer는 KV cache를 필요로 한다. Mamba layer는 conv state와 SSM state를 필요로 한다.

같은 token, 다른 cache

Transformer-only 모델에서는 모든 layer가 대체로 같은 종류의 KV cache abstraction을 공유한다.

Hybrid 모델에서는 layer마다 cache의 의미가 달라진다.

layer 0: attention -> K/V block
layer 1: mamba     -> state
layer 2: attention -> K/V block
layer 3: mamba     -> state

이제 cache manager는 “몇 개의 KV block이 필요한가”만 계산할 수 없다. 서로 다른 cache spec을 group으로 관리해야 한다.

attention prefix caching은 prefix의 KV block을 재사용한다.

Mamba prefix caching은 prefix를 처리한 뒤의 state를 재사용한다.

Hybrid prefix caching은 둘 다 맞아야 한다.

attention prefix reusable?
mamba state reusable?
둘의 block boundary와 scheduler step이 맞는가?

그래서 hybrid serving은 단순히 Mamba layer를 추가하는 문제가 아니다. 기존 vLLM의 KV 중심 가정을 확장하는 문제다.

SSM은 Transformer serving을 대체하는 독립 주제라기보다, Transformer serving의 숨은 가정을 드러내는 좋은 반례다.

기존 가정:
cache = past K/V blocks

SSM 이후:
cache = model architecture별 state representation

이 관점을 잡으면 dLLM, speculative decoding, encoder-decoder, multimodal 모델도 비슷하게 볼 수 있다. 각각은 vLLM의 기본 autoregressive decoder-only 가정을 다른 방식으로 흔든다.