nano-vLLM Request State

마지막 수정: 2026년 6월 30일

inferencenano-vllmrequest

Serving engine은 request를 상태 기계로 다룬다.

최소 request state는 다음 정보를 가진다.

request_id
prompt_tokens
generated_tokens
num_computed_tokens
status: waiting / running / finished
max_new_tokens

num_computed_tokens가 중요한 이유는 prefill과 decode를 한 구조로 다루게 해주기 때문이다.

num_computed_tokens < len(prompt_tokens):
prefill이 남아 있다.

num_computed_tokens >= len(prompt_tokens):
decode 단계다.

확인