nano-vLLM Benchmark Baseline
마지막 수정:
Kernel을 바꾸기 전에 baseline이 있어야 한다.
nano-vLLM에서 최소 측정할 값은 네 가지다.
TTFT: first token까지 걸린 시간
TPOT: output token당 평균 시간
throughput: tokens/sec
peak memory: 최대 메모리
실험 조건도 같이 기록한다.
model size
batch/request count
prompt length
output length
dtype
device
이 baseline이 있어야 다음 path에서 kernel swap이 실제 serving 성능을 바꿨는지 판단할 수 있다.
확인
- TTFT와 TPOT은 각각 어떤 사용자 경험과 연결되는가?
- standalone attention benchmark만으로 serving 성능을 판단하기 어려운 이유는 무엇인가?
- benchmark 조건을 기록하지 않으면 어떤 문제가 생기는가?