nano-vLLM Request State
마지막 수정:
Serving engine은 request를 상태 기계로 다룬다.
최소 request state는 다음 정보를 가진다.
request_id
prompt_tokens
generated_tokens
num_computed_tokens
status: waiting / running / finished
max_new_tokens
num_computed_tokens가 중요한 이유는 prefill과 decode를 한 구조로 다루게 해주기 때문이다.
num_computed_tokens < len(prompt_tokens):
prefill이 남아 있다.
num_computed_tokens >= len(prompt_tokens):
decode 단계다.
확인
- request state에
num_computed_tokens가 필요한 이유는 무엇인가? - prompt token과 generated token을 분리해서 들고 있어야 하는 이유는 무엇인가?
- request가 finished가 되는 조건은 무엇인가?