nano-vLLM Kernel Integration Points
마지막 수정:
Kernel 최적화는 아무 곳에나 붙이는 일이 아니다.
먼저 serving loop에서 교체 가능한 지점을 찾아야 한다.
model layer:
RMSNorm, MLP, attention projection
attention:
prefill attention, decode attention, KV cache read/write
sampling:
logits processing, top-k/top-p, argmax
좋은 integration point는 세 조건을 만족한다.
correctness reference가 있다.
standalone benchmark가 있다.
serving loop에서 호출 경로가 명확하다.
확인
- standalone kernel benchmark가 있어도 integration point가 필요한 이유는 무엇인가?
- RMSNorm과 attention 중 serving 성능에 더 큰 영향을 줄 가능성이 높은 것은 무엇인가?
- correctness reference 없이 kernel을 교체하면 어떤 위험이 생기는가?