PyTorch Transformer Benchmark Report 작성하기
마지막 수정:
이 path의 마지막 산출물은 코드가 아니라 재현 가능한 리포트다.
형식은 고정한다.
question
setup
command
baseline result
bottleneck
change
new result
lesson
예를 들면 다음 두 질문으로 시작할 수 있다.
작은 decoder-only Transformer에서 RMSNorm을 custom CUDA kernel로 바꾸면
단일 GPU training step time이 얼마나 달라지는가?
manual attention, PyTorch SDPA, optimized attention은
prefill-like와 decode-like workload에서 각각 얼마나 다른가?
결과가 작아도 괜찮다. 중요한 것은 측정, 해석, 다음 실험으로 이어지는 기록이다.
확인
- benchmark report에 command와 setup이 필요한 이유는 무엇인가?
- 최적화 결과가 작게 나와도 의미 있는 경우는 언제인가?
- 이 리포트는 나중에 multi-GPU, JAX, nano-vLLM path와 어떻게 연결될 수 있는가?