nano-vLLM Continuous Batching Scheduler
마지막 수정:
Continuous batching은 request batch를 고정하지 않는다.
매 step마다 현재 진행 가능한 request를 다시 고른다.
step 1: A prefill, B prefill
step 2: A decode, B decode, C prefill
step 3: A decode, C decode, D prefill
nano scheduler의 최소 정책은 단순해도 된다.
1. waiting request를 running으로 올린다.
2. token budget 안에서 prefill/decode 작업을 고른다.
3. KV block이 부족한 request는 기다리게 한다.
4. finished request는 제거한다.
이 카드는 vLLM scheduler를 이해하기 위한 작은 실험장이다.
확인
- static batching과 continuous batching은 무엇이 다른가?
- token budget이 필요한 이유는 무엇인가?
- KV block 부족은 scheduler 결정에 어떤 영향을 주는가?