LLM RL Training Metrics
마지막 수정:
LLM RL에서 가장 보기 쉬운 숫자는 average reward다.
reward_avg = batch rollout reward 평균
하지만 이 숫자 하나로는 부족하다.
함께 봐야 하는 지표
reward_avg
training prompt에서 reward가 오르는가?
held-out accuracy / pass rate
보지 않은 문제에서도 좋아지는가?
KL
reference model에서 얼마나 멀어졌는가?
entropy
policy가 너무 확정적이거나 너무 무작위가 되었는가?
response length
reasoning이 길어진 것인가, 그냥 장황해진 것인가?
invalid format rate
verifier가 답을 파싱할 수 있는가?
reward variance within group
GRPO에서 group 안에 학습 신호가 있는가?
reward와 evaluation의 차이
training reward는 학습 objective에 가깝다. evaluation은 실제 일반화에 가깝다.
training reward up
held-out performance flat
-> verifier exploit 또는 overfit 의심
특히 코드 task에서는 visible test reward와 hidden test performance를 분리해야 한다.
GRPO에서 advantage 지표
GRPO는 group reward 차이가 있어야 학습한다.
[0, 1, 0, 1] -> useful signal
[0, 0, 0, 0] -> no signal
[1, 1, 1, 1] -> no signal
그래서 average reward뿐 아니라 group 내 reward variance나 advantage std를 봐야 한다.
response length를 조심해야 하는 이유
DeepSeek-R1류 학습에서는 더 긴 reasoning이 성능 향상과 함께 나타날 수 있다. 하지만 길이가 늘었다고 reasoning이 좋아진 것은 아니다.
좋은 길이 증가:
더 정확한 풀이, self-check, 중간 계산
나쁜 길이 증가:
반복, 장황함, reward parser 회피
length는 reward와 held-out performance 옆에서 해석해야 한다.
참고 자료
- Sebastian Raschka, Build a Reasoning Model From Scratch
- DeepSeek-AI, DeepSeek-R1
- 로컬 참고:
reference-books/reasoning-model-from-scratch/ch07-Improving-GRPO-for-reinforcement-learning.md - 로컬 참고:
reference-books/deepseek from scratch/ch07-Reinforcement-learning-From-policy-gradients-to-GRPO.md
확인
- reward_avg가 올랐는데 held-out accuracy가 오르지 않으면 무엇을 의심해야 하는가?
- GRPO에서 group reward variance가 중요한 이유는 무엇인가?
- response length 증가는 언제 좋은 신호이고 언제 나쁜 신호인가?