nano-vLLM RMSNorm Kernel Swap

RMSNorm은 첫 kernel swap 대상으로 좋다.

이유는 작고 correctness 비교가 쉽기 때문이다.

PyTorch RMSNorm
  -> custom CUDA RMSNorm
  -> optimized CUDA RMSNorm

교체 절차는 다음이다.

1. 같은 input에서 output close 확인
2. standalone RMSNorm latency 비교
3. nano-vLLM model forward에 연결
4. TTFT/TPOT/throughput 전후 비교

RMSNorm이 단독으로 빨라져도 serving 전체 개선은 작을 수 있다. 이 차이를 기록하는 것이 이 카드의 핵심이다.

확인