왜 Hybrid SSM-Transformer인가

최근 SSM 계열 실전 모델을 보면 순수 SSM보다 hybrid가 자주 보인다.

attention layer + Mamba/SSM layer + MLP/MoE layer

Jamba, Zamba, Falcon-H1, Nemotron-H 같은 모델은 attention과 SSM을 한 모델 안에서 섞는다.

왜 섞는가

Attention은 과거 token을 직접 볼 수 있다. 특정 token 사이의 명시적 상호작용을 만들기 좋다.

SSM은 sequence를 state로 누적하며 처리한다. 긴 sequence를 효율적으로 다루는 데 유리한 구조를 제공한다.

둘은 장점이 다르다.

Attention:
직접 참조와 token-token interaction에 강하다.

SSM:
긴 sequence를 state update로 처리하는 효율성에 강하다.

Hybrid 모델은 이 둘을 모두 쓰려는 선택이다.

Hybrid는 모델 구조에서는 타협처럼 보이지만, serving system에서는 복잡도를 만든다.

한 모델 안에 두 종류의 cache가 공존한다.

attention layer -> KV cache
mamba layer     -> conv state + SSM state

따라서 scheduler와 cache manager는 “이 모델은 KV cache만 관리하면 된다”는 단순한 가정을 버려야 한다.