RLVR: Verifiable Rewards

RLVR은 Reinforcement Learning with Verifiable Rewards다.

핵심은 reward model을 사람이 선호하는 답변 평가기로 만들지 않고, 결과를 자동 검증한다는 점이다.

math answer checker
code unit tests
compiler
browser task success signal
game/environment score

RLHF와 다른 점

RLHF는 사람이 선호한 데이터를 reward model로 압축한다.

human preference -> reward model -> reward

RLVR은 답을 직접 채점할 수 있는 task에서 verifier를 쓴다.

generated answer -> verifier/test/environment -> reward

그래서 reward model을 따로 학습하지 않아도 된다.

수학과 코드는 final answer나 test result가 비교적 명확하다.

수학:
  final answer가 정답과 같은가?

코드:
  unit tests를 통과하는가?

형식:
  verifier가 답을 파싱할 수 있는가?

모델은 여러 풀이를 시도하고, 맞은 풀이의 token 확률을 높이는 방향으로 업데이트된다.

검증기가 있다 해도 문제가 끝난 것은 아니다.

final answer 위치를 잘못 파싱할 수 있다
코드는 visible test만 통과하고 hidden test에서 실패할 수 있다
수식 동치성을 판정하기 어렵다
환경 reward가 sparse하면 학습 신호가 거의 없다

그래서 RLVR에서는 response protocol이 중요하다.

풀이를 쓰고,
마지막 답은 반드시 Final answer: 뒤에 둔다

이런 규칙은 단순한 formatting이 아니라 reward assignment를 안정화하는 장치다.

RLVR은 reward의 출처를 말한다. GRPO는 그 reward로 policy를 업데이트하는 알고리즘이다.

RLVR:
  verifier가 reward를 준다

GRPO:
  같은 prompt에서 여러 rollout을 뽑아 group-relative advantage를 만든다

DeepSeek-R1류 reasoning training은 이 둘이 함께 등장한다.

DeepSeek-AI, DeepSeek-R1
DeepSeek-AI, DeepSeekMath
로컬 참고: reference-books/reasoning-model-from-scratch/ch06-Training-reasoning-models-with-reinforcement-learning.md
로컬 참고: reference-books/deepseek from scratch/ch07-Reinforcement-learning-From-policy-gradients-to-GRPO.md