vLLM Deep Dive
이 경로는 기존 추론 이론 path를 실제 vLLM 아키텍처 분석으로 연결하는 경로입니다.
목표는 vLLM의 기능을 하나씩 소개하는 것이 아닙니다. API server, engine core, GPU worker가 어떤 책임을 갖고, 서로 어떤 request/response/data object를 주고받는지 분석합니다.
특히 단일 GPU에서 끝나지 않는 경우를 중요하게 봅니다. GPU가 여러 개가 되면 worker와 parallel group이 어떻게 늘어나는지, speculative decoding처럼 모델이 여러 개가 되면 proposer/verifier 관계가 engine core와 worker contract를 어떻게 바꾸는지 추적합니다.
이 path의 산출물은 vLLM의 component/data-flow 지도입니다.
API server
-> engine core
-> GPU worker
-> engine core
-> API server
각 경계에서:
request object / scheduler output / worker input / model output / sampled tokens
- 추론 엔진의 세 층 — vLLM과 SGLang 같은 LLM 추론 엔진을 API, scheduler core, GPU worker로 나누어 이해한다.
- vLLM API Server Contract — API server가 외부 요청을 내부 engine request로 바꾸고, engine output을 streaming/API response로 되돌리는 경계를 분석한다.
- vLLM Engine Core와 Request State — engine core가 request 상태, scheduling, KV cache 소유권을 어떻게 관리하는지 분석한다.
- vLLM Engine-Core to Worker Protocol — engine core가 worker에게 보내는 scheduler output과 worker가 돌려주는 model/sampling output의 형식을 분석한다.
- vLLM GPU Worker Execution Contract — GPU worker가 scheduler output을 model input, attention metadata, sampling result로 바꾸는 실행 계약을 분석한다.
- vLLM의 KV cache 연결 흐름 — EngineCore가 KV block을 배정하고 GPU worker가 block table과 slot mapping으로 model forward에 연결하는 흐름을 이해한다.
- vLLM Multi-GPU Scaling Map — 단일 GPU worker 구조가 tensor parallel, pipeline parallel, distributed executor에서 어떻게 확장되는지 분석한다.
- vLLM Speculative Decoding Expansion — proposer/verifier처럼 모델이 여러 개가 되는 경우 engine core와 worker contract가 어떻게 확장되는지 분석한다.
- vLLM Component Contract Report — API server, engine core, GPU worker 사이의 data contract와 확장 지점을 코드 위치와 함께 정리한다.