v00 Naive Generate Loop

마지막 수정:

inferencenano-vllmimplementation

첫 버전은 inference engine이 아니다.

그냥 prompt token list를 받고, toy model로 다음 token을 반복 생성한다.

읽을 코드:

labs/nano-vllm/versions/v00_naive_generate/run.py

실행:

cd labs/nano-vllm/versions/v00_naive_generate
python3 run.py

이 단계에서 중요한 것은 모델 품질이 아니다.

중요한 것은 generation이 결국 다음 loop라는 점이다.

tokens -> next_token -> append -> next_token -> append

다음 문제

이 구조에는 request state가 없다.

prompt와 output이 분리되어 있지 않고, 완료 조건도 engine 바깥의 loop에 숨어 있다.