nano-vLLM KV Block Manager

마지막 수정: 2026년 6월 30일

inferencenano-vllmkv-cachepaged-attention

KV cache를 request마다 연속 tensor로 잡으면 길이가 다른 request를 처리하기 어렵다.

nano-vLLM에서는 KV cache를 고정 크기 block으로 나눈다.

physical blocks:
0, 1, 2, 3, 4, ...

request A block table:
[7, 2, 9]

request B block table:
[1]

KV block manager의 최소 책임은 다음이다.

allocate block
append block to request
free request blocks
logical position -> physical block + offset

이 구조가 있어야 나중에 PagedAttention과 kernel metadata로 이어질 수 있다.

확인