RLVR: Verifiable Rewards
마지막 수정:
RLVR은 Reinforcement Learning with Verifiable Rewards다.
핵심은 reward model을 사람이 선호하는 답변 평가기로 만들지 않고, 결과를 자동 검증한다는 점이다.
math answer checker
code unit tests
compiler
browser task success signal
game/environment score
RLHF와 다른 점
RLHF는 사람이 선호한 데이터를 reward model로 압축한다.
human preference -> reward model -> reward
RLVR은 답을 직접 채점할 수 있는 task에서 verifier를 쓴다.
generated answer -> verifier/test/environment -> reward
그래서 reward model을 따로 학습하지 않아도 된다.
왜 reasoning에 잘 맞는가
수학과 코드는 final answer나 test result가 비교적 명확하다.
수학:
final answer가 정답과 같은가?
코드:
unit tests를 통과하는가?
형식:
verifier가 답을 파싱할 수 있는가?
모델은 여러 풀이를 시도하고, 맞은 풀이의 token 확률을 높이는 방향으로 업데이트된다.
verifier가 쉬운 것은 아니다
검증기가 있다 해도 문제가 끝난 것은 아니다.
final answer 위치를 잘못 파싱할 수 있다
코드는 visible test만 통과하고 hidden test에서 실패할 수 있다
수식 동치성을 판정하기 어렵다
환경 reward가 sparse하면 학습 신호가 거의 없다
그래서 RLVR에서는 response protocol이 중요하다.
풀이를 쓰고,
마지막 답은 반드시 Final answer: 뒤에 둔다
이런 규칙은 단순한 formatting이 아니라 reward assignment를 안정화하는 장치다.
RLVR과 GRPO
RLVR은 reward의 출처를 말한다. GRPO는 그 reward로 policy를 업데이트하는 알고리즘이다.
RLVR:
verifier가 reward를 준다
GRPO:
같은 prompt에서 여러 rollout을 뽑아 group-relative advantage를 만든다
DeepSeek-R1류 reasoning training은 이 둘이 함께 등장한다.
참고 자료
- DeepSeek-AI, DeepSeek-R1
- DeepSeek-AI, DeepSeekMath
- 로컬 참고:
reference-books/reasoning-model-from-scratch/ch06-Training-reasoning-models-with-reinforcement-learning.md - 로컬 참고:
reference-books/deepseek from scratch/ch07-Reinforcement-learning-From-policy-gradients-to-GRPO.md
확인
- RLVR에서 reward model을 대체하는 것은 무엇인가?
- verifier가 있어도 response format이 중요한 이유는 무엇인가?
- RLVR과 GRPO는 서로 같은 개념인가, 다른 층인가?