nano-vLLM Kernel Integration Points

마지막 수정:

inferencenano-vllmkerneloptimization

Kernel 최적화는 아무 곳에나 붙이는 일이 아니다.

먼저 serving loop에서 교체 가능한 지점을 찾아야 한다.

model layer:
RMSNorm, MLP, attention projection

attention:
prefill attention, decode attention, KV cache read/write

sampling:
logits processing, top-k/top-p, argmax

좋은 integration point는 세 조건을 만족한다.

correctness reference가 있다.
standalone benchmark가 있다.
serving loop에서 호출 경로가 명확하다.

확인

  • standalone kernel benchmark가 있어도 integration point가 필요한 이유는 무엇인가?
  • RMSNorm과 attention 중 serving 성능에 더 큰 영향을 줄 가능성이 높은 것은 무엇인가?
  • correctness reference 없이 kernel을 교체하면 어떤 위험이 생기는가?