nano-vLLM Prefill/Decode Benchmark Report
마지막 수정:
nano-vLLM kernel optimization의 최종 산출물은 전후 비교 리포트다.
형식은 고정한다.
question
engine version
model
workload
baseline result
kernel change
correctness check
new result
lesson
metric은 prefill과 decode를 나눠 기록한다.
TTFT
TPOT
tokens/sec
peak memory
좋은 리포트는 “빨라졌다”가 아니라 어디가 왜 빨라졌고, 어디는 그대로였는지 설명한다.
확인
- Kernel swap 전후 비교에서 correctness check가 빠지면 안 되는 이유는 무엇인가?
- TTFT와 TPOT을 분리해서 기록해야 하는 이유는 무엇인가?
- 결과가 기대보다 작게 나와도 어떤 학습 가치가 있는가?