RLHF vs DPO vs GRPO Selection Map

RLHF, DPO, GRPO는 같은 자리에 놓고 외울 이름이 아니다. 각각 필요한 데이터와 시스템이 다르다.

선택 기준

선호 데이터가 있는가?
정답을 자동 검증할 수 있는가?
현재 policy가 직접 탐색해야 하는가?
rollout infra를 감당할 수 있는가?

이 질문에 따라 선택이 달라진다.

DPO가 좋은 경우

chosen/rejected preference pair가 있다
online rollout infra가 부담스럽다
reward model을 따로 운영하고 싶지 않다
대화 품질, 스타일, 선호 alignment를 빠르게 개선하고 싶다

DPO는 간단하고 강력하지만, 모델이 새로 탐색한 행동을 verifier로 직접 강화하는 구조는 아니다.

RLHF/PPO가 좋은 경우

human preference를 reward model로 일반화하고 싶다
현재 policy의 output을 online으로 평가하며 업데이트하고 싶다
KL, value model, rollout pipeline을 운영할 수 있다
open-ended helpfulness/safety/style을 다룬다

PPO는 복잡하지만 reward model을 사용한 online optimization으로 넓은 preference objective를 다룰 수 있다.

GRPO/RLVR이 좋은 경우

math, code, tool task처럼 결과를 검증할 수 있다
같은 prompt에서 여러 completion을 뽑을 compute가 있다
value model 없이 reasoning behavior를 강화하고 싶다
verifier와 response protocol을 설계할 수 있다

GRPO/RLVR은 reasoning과 verifiable task에 강하다. 하지만 verifier가 없는 open-ended preference 문제에는 그대로 적용하기 어렵다.

시스템 관점 비교

DPO:
  offline dataset 중심
  가장 단순한 infra

PPO/RLHF:
  reward model + online rollout
  value/reference/KL 관리 필요

GRPO/RLVR:
  verifier + grouped rollout
  rollout compute와 reward variance 관리 필요

Agentic RL:
  environment + tools + sandbox + async rollout
  infra 난이도 가장 높음

최종 감각

작게 시작한다면 DPO와 TRL GRPOTrainer가 좋다. 모델이 직접 탐색해야 하고 reward를 자동 검증할 수 있으면 GRPO/RLVR로 간다. rollout이 길어지고 training/serving 분리가 필요해지면 Slime 같은 infra를 읽어야 한다.

참고 자료

Rafael Rafailov et al., Direct Preference Optimization
John Schulman et al., Proximal Policy Optimization Algorithms
DeepSeek-AI, DeepSeekMath
Hugging Face, TRL documentation
THUDM, Slime documentation

확인

verifier가 없는 open-ended task에서 GRPO/RLVR만으로 부족한 이유는 무엇인가?
DPO가 PPO보다 단순해지는 이유는 무엇인가?
agentic RL이 알고리즘보다 infra 문제가 되는 순간은 언제인가?