v03 Prefill / Decode Split

마지막 수정: 2026년 6월 30일

inferencenano-vllmprefilldecode

python87 linespython3 labs/nano-vllm/versions/v03_prefill_decode/run.py


  
      1
      from dataclasses import dataclass, field
    
      2
      from enum import Enum, auto
    
      3
      from itertools import count
    
      4
       
    
      5
      VOCAB_SIZE = 32
    
      6
       
    
      7
       
    
      8
      class SequenceStatus(Enum):
    
      9
          WAITING = auto()
    
      10
          RUNNING = auto()
    
      11
          FINISHED = auto()
    
      12
       
    
      13
       
    
      14
      @dataclass
    
      15
      class Sequence:
    
      16
          prompt_token_ids: list[int]
    
      17
          max_tokens: int
    
      18
          seq_id: int = field(default_factory=lambda: next(Sequence.counter))
    
      19
          status: SequenceStatus = SequenceStatus.WAITING
    
      20
          output_token_ids: list[int] = field(default_factory=list)
    
      21
          is_prefill: bool = True
    
      22
       
    
      23
          counter = count()
    
      24
       
    
      25
          @property
    
      26
          def token_ids(self) -> list[int]:
    
      27
              return self.prompt_token_ids + self.output_token_ids
    
      28
       
    
      29
          @property
    
      30
          def last_token(self) -> int:
    
      31
              return self.token_ids[-1]
    
      32
       
    
      33
          def append_token(self, token_id: int) -> None:
    
      34
              self.output_token_ids.append(token_id)
    
      35
              if len(self.output_token_ids) >= self.max_tokens:
    
      36
                  self.status = SequenceStatus.FINISHED
    
      37
       
    
      38
       
    
      39
      class ToyModel:
    
      40
          def prefill(self, prompt_tokens: list[int]) -> int:
    
      41
              return (sum(prompt_tokens) + len(prompt_tokens) + 1) % VOCAB_SIZE
    
      42
       
    
      43
          def decode(self, last_token: int, position: int) -> int:
    
      44
              return (last_token * 3 + position + 1) % VOCAB_SIZE
    
      45
       
    
      46
       
    
      47
      class LLMEngine:
    
      48
          def __init__(self):
    
      49
              self.model = ToyModel()
    
      50
              self.seqs: list[Sequence] = []
    
      51
       
    
      52
          def add_request(self, prompt: list[int], max_tokens: int) -> None:
    
      53
              self.seqs.append(Sequence(prompt, max_tokens))
    
      54
       
    
      55
          def is_finished(self) -> bool:
    
      56
              return all(seq.status == SequenceStatus.FINISHED for seq in self.seqs)
    
      57
       
    
      58
          def step(self) -> list[tuple[int, list[int]]]:
    
      59
              outputs = []
    
      60
              for seq in self.seqs:
    
      61
                  if seq.status == SequenceStatus.FINISHED:
    
      62
                      continue
    
      63
                  seq.status = SequenceStatus.RUNNING
    
      64
                  if seq.is_prefill:
    
      65
                      token = self.model.prefill(seq.prompt_token_ids)
    
      66
                      seq.is_prefill = False
    
      67
                  else:
    
      68
                      token = self.model.decode(seq.last_token, len(seq.token_ids))
    
      69
                  seq.append_token(token)
    
      70
                  if seq.status == SequenceStatus.FINISHED:
    
      71
                      outputs.append((seq.seq_id, seq.output_token_ids))
    
      72
              return outputs
    
      73
       
    
      74
          def generate(self, prompts: list[list[int]], max_tokens: int) -> list[list[int]]:
    
      75
              for prompt in prompts:
    
      76
                  self.add_request(prompt, max_tokens)
    
      77
              final = {}
    
      78
              while not self.is_finished():
    
      79
                  for seq_id, output in self.step():
    
      80
                      final[seq_id] = output
    
      81
              return [final[i] for i in sorted(final)]
    
      82
       
    
      83
       
    
      84
      if __name__ == "__main__":
    
      85
          engine = LLMEngine()
    
      86
          print(engine.generate([[1, 2, 3], [7, 8]], max_tokens=6))
    
      87

LLM inference는 크게 두 단계로 나뉜다.

prefill:
prompt 전체를 처리하고 KV cache를 만든다.

decode:
이전 token과 KV cache를 사용해 다음 token 하나를 만든다.

읽을 코드:

labs/nano-vllm/versions/v03_prefill_decode/run.py

이번 버전은 toy model 안에서도 prefill()과 decode()를 나눈다.

ToyModel과 LLMEngine.step() labs/nano-vllm/versions/v03_prefill_decode/run.py:39-72


  
      39
      class ToyModel:
    
      40
          def prefill(self, prompt_tokens: list[int]) -> int:
    
      41
              return (sum(prompt_tokens) + len(prompt_tokens) + 1) % VOCAB_SIZE
    
      42
       
    
      43
          def decode(self, last_token: int, position: int) -> int:
    
      44
              return (last_token * 3 + position + 1) % VOCAB_SIZE
    
      45
       
    
      46
       
    
      47
      class LLMEngine:
    
      48
          def __init__(self):
    
      49
              self.model = ToyModel()
    
      50
              self.seqs: list[Sequence] = []
    
      51
       
    
      52
          def add_request(self, prompt: list[int], max_tokens: int) -> None:
    
      53
              self.seqs.append(Sequence(prompt, max_tokens))
    
      54
       
    
      55
          def is_finished(self) -> bool:
    
      56
              return all(seq.status == SequenceStatus.FINISHED for seq in self.seqs)
    
      57
       
    
      58
          def step(self) -> list[tuple[int, list[int]]]:
    
      59
              outputs = []
    
      60
              for seq in self.seqs:
    
      61
                  if seq.status == SequenceStatus.FINISHED:
    
      62
                      continue
    
      63
                  seq.status = SequenceStatus.RUNNING
    
      64
                  if seq.is_prefill:
    
      65
                      token = self.model.prefill(seq.prompt_token_ids)
    
      66
                      seq.is_prefill = False
    
      67
                  else:
    
      68
                      token = self.model.decode(seq.last_token, len(seq.token_ids))
    
      69
                  seq.append_token(token)
    
      70
                  if seq.status == SequenceStatus.FINISHED:
    
      71
                      outputs.append((seq.seq_id, seq.output_token_ids))
    
      72
              return outputs

실제 모델에서는 이 차이가 더 중요하다. prefill은 큰 matrix 연산에 가깝고, decode는 작은 batch와 KV cache lookup의 반복에 가깝다.

다음 문제

아직 여러 request를 효율적으로 섞지 못한다.

특히 decode 단계에서는 여러 sequence의 다음 token을 한 batch로 묶어야 GPU를 더 잘 쓸 수 있다.

v03 Prefill / Decode Split

다음 문제

연결된 카드