nano-vLLM Request State

마지막 수정:

inferencenano-vllmrequest

Serving engine은 request를 상태 기계로 다룬다.

최소 request state는 다음 정보를 가진다.

request_id
prompt_tokens
generated_tokens
num_computed_tokens
status: waiting / running / finished
max_new_tokens

num_computed_tokens가 중요한 이유는 prefill과 decode를 한 구조로 다루게 해주기 때문이다.

num_computed_tokens < len(prompt_tokens):
prefill이 남아 있다.

num_computed_tokens >= len(prompt_tokens):
decode 단계다.

확인

  • request state에 num_computed_tokens가 필요한 이유는 무엇인가?
  • prompt token과 generated token을 분리해서 들고 있어야 하는 이유는 무엇인가?
  • request가 finished가 되는 조건은 무엇인가?