왜 Hybrid SSM-Transformer인가
마지막 수정:
최근 SSM 계열 실전 모델을 보면 순수 SSM보다 hybrid가 자주 보인다.
attention layer + Mamba/SSM layer + MLP/MoE layer
Jamba, Zamba, Falcon-H1, Nemotron-H 같은 모델은 attention과 SSM을 한 모델 안에서 섞는다.
왜 섞는가
Attention은 과거 token을 직접 볼 수 있다. 특정 token 사이의 명시적 상호작용을 만들기 좋다.
SSM은 sequence를 state로 누적하며 처리한다. 긴 sequence를 효율적으로 다루는 데 유리한 구조를 제공한다.
둘은 장점이 다르다.
Attention:
직접 참조와 token-token interaction에 강하다.
SSM:
긴 sequence를 state update로 처리하는 효율성에 강하다.
Hybrid 모델은 이 둘을 모두 쓰려는 선택이다.
시스템 관점의 의미
Hybrid는 모델 구조에서는 타협처럼 보이지만, serving system에서는 복잡도를 만든다.
한 모델 안에 두 종류의 cache가 공존한다.
attention layer -> KV cache
mamba layer -> conv state + SSM state
따라서 scheduler와 cache manager는 “이 모델은 KV cache만 관리하면 된다”는 단순한 가정을 버려야 한다.
연결
- multi-head-attention: attention이 token 간 직접 mixing을 만드는 방식
- mamba-selective-state: Mamba가 state update로 sequence를 처리하는 방식
- hybrid-cache-manager: hybrid 모델에서 cache 관리가 복잡해지는 이유
확인
- Hybrid 모델이 attention과 SSM을 함께 쓰는 이유는 무엇인가?
- Hybrid가 모델 품질 관점에서만이 아니라 serving 관점에서도 중요한 이유는 무엇인가?
- Hybrid 모델에서 cache가 한 종류가 아니라는 말은 무슨 뜻인가?