v01 Request State
마지막 수정:
vLLM류 engine은 문자열을 직접 다루지 않는다.
engine이 다루는 단위는 상태를 가진 request다.
읽을 코드:
labs/nano-vllm/versions/v01_request_state/run.py
이번 단계에서 Sequence를 추가한다.
prompt_token_ids
output_token_ids
max_tokens
is_finished
append_token()
이제 generation loop는 token list가 아니라 Sequence를 갱신한다.
다음 문제
아직 engine이 없다.
request를 추가하고, 한 step씩 실행하고, 완료된 output을 모으는 구조가 필요하다.