nano-vLLM Benchmark Baseline

마지막 수정:

inferencenano-vllmbenchmark

Kernel을 바꾸기 전에 baseline이 있어야 한다.

nano-vLLM에서 최소 측정할 값은 네 가지다.

TTFT: first token까지 걸린 시간
TPOT: output token당 평균 시간
throughput: tokens/sec
peak memory: 최대 메모리

실험 조건도 같이 기록한다.

model size
batch/request count
prompt length
output length
dtype
device

이 baseline이 있어야 다음 path에서 kernel swap이 실제 serving 성능을 바꿨는지 판단할 수 있다.

확인

  • TTFT와 TPOT은 각각 어떤 사용자 경험과 연결되는가?
  • standalone attention benchmark만으로 serving 성능을 판단하기 어려운 이유는 무엇인가?
  • benchmark 조건을 기록하지 않으면 어떤 문제가 생기는가?