nano-vLLM Continuous Batching Scheduler

마지막 수정:

inferencenano-vllmschedulerbatching

Continuous batching은 request batch를 고정하지 않는다.

매 step마다 현재 진행 가능한 request를 다시 고른다.

step 1: A prefill, B prefill
step 2: A decode, B decode, C prefill
step 3: A decode, C decode, D prefill

nano scheduler의 최소 정책은 단순해도 된다.

1. waiting request를 running으로 올린다.
2. token budget 안에서 prefill/decode 작업을 고른다.
3. KV block이 부족한 request는 기다리게 한다.
4. finished request는 제거한다.

이 카드는 vLLM scheduler를 이해하기 위한 작은 실험장이다.

확인

  • static batching과 continuous batching은 무엇이 다른가?
  • token budget이 필요한 이유는 무엇인가?
  • KV block 부족은 scheduler 결정에 어떤 영향을 주는가?