nano-vLLM Prefill/Decode Benchmark Report

nano-vLLM kernel optimization의 최종 산출물은 전후 비교 리포트다.

형식은 고정한다.

question
engine version
model
workload
baseline result
kernel change
correctness check
new result
lesson

metric은 prefill과 decode를 나눠 기록한다.

TTFT
TPOT
tokens/sec
peak memory

좋은 리포트는 “빨라졌다”가 아니라 어디가 왜 빨라졌고, 어디는 그대로였는지 설명한다.

확인