LLM RL Training Metrics

LLM RL에서 가장 보기 쉬운 숫자는 average reward다.

reward_avg = batch rollout reward 평균

하지만 이 숫자 하나로는 부족하다.

함께 봐야 하는 지표

reward_avg
  training prompt에서 reward가 오르는가?

held-out accuracy / pass rate
  보지 않은 문제에서도 좋아지는가?

KL
  reference model에서 얼마나 멀어졌는가?

entropy
  policy가 너무 확정적이거나 너무 무작위가 되었는가?

response length
  reasoning이 길어진 것인가, 그냥 장황해진 것인가?

invalid format rate
  verifier가 답을 파싱할 수 있는가?

reward variance within group
  GRPO에서 group 안에 학습 신호가 있는가?

reward와 evaluation의 차이

training reward는 학습 objective에 가깝다. evaluation은 실제 일반화에 가깝다.

training reward up
held-out performance flat
  -> verifier exploit 또는 overfit 의심

특히 코드 task에서는 visible test reward와 hidden test performance를 분리해야 한다.

GRPO에서 advantage 지표

GRPO는 group reward 차이가 있어야 학습한다.

[0, 1, 0, 1] -> useful signal
[0, 0, 0, 0] -> no signal
[1, 1, 1, 1] -> no signal

그래서 average reward뿐 아니라 group 내 reward variance나 advantage std를 봐야 한다.

response length를 조심해야 하는 이유

DeepSeek-R1류 학습에서는 더 긴 reasoning이 성능 향상과 함께 나타날 수 있다. 하지만 길이가 늘었다고 reasoning이 좋아진 것은 아니다.

좋은 길이 증가:
  더 정확한 풀이, self-check, 중간 계산

나쁜 길이 증가:
  반복, 장황함, reward parser 회피

length는 reward와 held-out performance 옆에서 해석해야 한다.

참고 자료

Sebastian Raschka, Build a Reasoning Model From Scratch
DeepSeek-AI, DeepSeek-R1
로컬 참고: reference-books/reasoning-model-from-scratch/ch07-Improving-GRPO-for-reinforcement-learning.md
로컬 참고: reference-books/deepseek from scratch/ch07-Reinforcement-learning-From-policy-gradients-to-GRPO.md

확인

reward_avg가 올랐는데 held-out accuracy가 오르지 않으면 무엇을 의심해야 하는가?
GRPO에서 group reward variance가 중요한 이유는 무엇인가?
response length 증가는 언제 좋은 신호이고 언제 나쁜 신호인가?