v01 Request State

vLLM류 engine은 문자열을 직접 다루지 않는다.

engine이 다루는 단위는 상태를 가진 request다.

읽을 코드:

labs/nano-vllm/versions/v01_request_state/run.py

이번 단계에서 Sequence를 추가한다.

prompt_token_ids
output_token_ids
max_tokens
is_finished
append_token()

이제 generation loop는 token list가 아니라 Sequence를 갱신한다.

다음 문제

아직 engine이 없다.

request를 추가하고, 한 step씩 실행하고, 완료된 output을 모으는 구조가 필요하다.