nano-vLLM Prefill/Decode Loop

마지막 수정: 2026년 6월 30일

inferencenano-vllmprefilldecode

nano-vLLM의 step()은 request를 조금씩 전진시킨다.

개념적으로는 다음 흐름이다.

select requests
  -> prepare input tokens
  -> allocate KV slots
  -> model forward
  -> sample next tokens
  -> update request state

처음 구현에서는 prefill과 decode를 완전히 최적화할 필요는 없다. 중요한 것은 둘의 입력 shape와 state update가 다르다는 점을 코드로 분리하는 것이다.

prefill:
prompt chunk를 처리한다.

decode:
새 token 하나를 처리하고 다음 token을 생성한다.

확인