v00 Naive Generate Loop
마지막 수정:
첫 버전은 inference engine이 아니다.
그냥 prompt token list를 받고, toy model로 다음 token을 반복 생성한다.
읽을 코드:
labs/nano-vllm/versions/v00_naive_generate/run.py
실행:
cd labs/nano-vllm/versions/v00_naive_generate
python3 run.py
이 단계에서 중요한 것은 모델 품질이 아니다.
중요한 것은 generation이 결국 다음 loop라는 점이다.
tokens -> next_token -> append -> next_token -> append
다음 문제
이 구조에는 request state가 없다.
prompt와 output이 분리되어 있지 않고, 완료 조건도 engine 바깥의 loop에 숨어 있다.