Transformer 구조를 텐서 흐름으로 이해하기

이 경로는 Transformer를 처음부터 세부 수식으로 쪼개지 않고, 먼저 큰 덩어리로 잡는 경로입니다.

Transformer는 먼저 token id를 embedding으로 바꾸고, attention으로 토큰 사이의 정보를 섞고, MLP/FFN으로 각 토큰의 표현을 변환합니다. 이 세 덩어리를 잡은 뒤 attention 내부의 projection, score, weighted sum을 차례로 열어봅니다.

마지막에는 decoder-only LLM과 MoE를 연결해, 현대 LLM 구조가 기본 Transformer에서 어떻게 확장되는지 봅니다.

  1. Transformer 큰 그림 — Transformer를 embedding, attention, MLP/FFN 세 덩어리로 먼저 나눠 본다.
  2. Transformer 표기법 — B, T, D, F, N, K, H … Transformer 수학에 쓰는 한 글자 기호들의 의미.
  3. Transformer Embedding — Token id가 벡터 표현으로 바뀌고 Transformer의 입력 텐서가 되는 과정을 이해한다.
  4. Transformer Block은 두 Mixer다 — Attention은 token mixing, MLP/FFN은 feature transformation이라는 관점으로 block을 본다.
  5. Attention은 Projection과 Score다 — Self-attention을 Q/K/V projection과 attention score 계산으로 나눠 이해한다.
  6. Self-Attention Score Matrix — QK^T가 token 간 참조 지도를 만드는 과정을 이해한다.
  7. Attention Weighted Sum — Attention weight로 V를 가중합해 새 token 표현을 만드는 과정을 이해한다.
  8. Multi-Head Attention — Attention을 여러 head로 나눠 서로 다른 참조 관계를 병렬로 학습하는 구조를 이해한다.
  9. Multi-Query Attention — Query head는 여러 개 유지하되 Key/Value head를 하나로 줄여 KV cache와 decode 메모리 읽기를 줄이는 구조를 이해한다.
  10. Grouped-Query Attention — MHA와 MQA 사이에서 여러 query head가 하나의 KV head를 공유하는 절충 구조를 이해한다.
  11. DeepSeek MLA — DeepSeek의 Multi-head Latent Attention이 KV cache를 latent vector로 압축해 decode 병목을 어떻게 바꾸는지 이해한다.
  12. Transformer MLP/FFN — Attention 뒤에서 각 token의 벡터를 D -> F -> D로 변환하는 MLP/FFN을 이해한다.
  13. LayerNorm과 Residual Connection — Transformer block이 깊게 쌓일 수 있도록 돕는 normalization과 residual 흐름을 이해한다.
  14. Causal Mask — Decoder-only Transformer가 미래 token을 보지 못하게 막는 causal mask를 이해한다.
  15. Decoder-only Transformer — GPT 계열 LLM이 embedding, masked self-attention, MLP를 반복해 다음 token을 예측하는 구조를 이해한다.
  16. Mixture of Experts — Dense MLP를 여러 expert로 나누고 token마다 일부 expert만 선택하는 MoE 구조를 이해한다.