[논문 리뷰] DeepSeek의 GRPO (Group Relative Policy Optimization) 파헤치기

[논문 리뷰] DeepSeek의 GRPO (Group Relative Policy Optimization) 파헤치기 논문 리뷰 [논문 리뷰] DeepSeek의 GRPO (Group Relative Policy Optimization) 파헤치기 Published on: 2026년 05월....

[논문 리뷰] DeepSeek의 GRPO (Group Relative Policy Optimization) 파헤치기

논문 리뷰

[논문 리뷰] DeepSeek의 GRPO (Group Relative Policy Optimization) 파헤치기

Published on: 2026년 05월 21일

서론

대규모 언어 모델(LLM)의 훈련에서 강화학습(Reinforcement Learning, RL)은 모델을 인간의 의도에 맞게 정렬(Alignment)하고 추론 능력을 극대화하는 핵심 단계입니다. 최근 DeepSeek-R1 모델이 뛰어난 성능과 극단적인 훈련 효율성으로 AI 업계에 큰 충격을 주었는데, 그 중심에는 GRPO(Group Relative Policy Optimization) 라는 독창적인 강화학습 알고리즘이 있습니다.
GRPO는 DeepSeek 팀이 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (2024) 논문에서 처음 제안한 방법론으로, 기존 RLHF의 표준으로 쓰이던 PPO(Proximal Policy Optimization)의 구조적 한계를 획기적으로 개선했습니다.
이번 포스팅에서는 기존 PPO의 문제점과 이를 해결한 GRPO의 핵심 원리, 그리고 수식적인 차이를 깊이 있게 알아보겠습니다.

1. 기존 PPO(Proximal Policy Optimization)의 한계

GRPO의 필요성을 이해하기 위해서는 먼저 기존 PPO 알고리즘 이 언어 모델 훈련에 어떻게 적용되는지, 그리고 어떤 단점이 있는지 알아야 합니다.

표준 PPO는 Actor-Critic 아키텍처를 기반으로 작동합니다.

Actor Model (Policy Network) : 현재 주어진 프롬프트(상태)에서 다음 토큰(행동)을 생성하는 모델입니다. (우리가 훈련시키고자 하는 메인 LLM)

Critic Model (Value Network) : 현재 생성된 상태(문맥)가 얼마나 좋은 결과를 가져올지 점수(가치)를 예측하는 모델입니다.

Reward Model : 결과물의 최종 퀄리티를 평가하여 스칼라 보상을 제공합니다.

Reference Model : 모델이 초기 상태에서 너무 멀리 벗어나 망가지는 것을 막기 위해 KL Divergence 페널티를 계산하는 기준 모델입니다.

PPO에서 Critic 모델은 현재 행동이 기대치 대비 얼마나 더 나은지( Advantage )를 계산하기 위한 Baseline(기준점) 역할을 수행합니다. $A_t = r_t - V(s_t)$ 라는 수식으로 Advantage를 구하게 되죠.

치명적인 단점: 극심한 메모리 및 연산량 소모

PPO의 가장 큰 문제는 Critic 모델의 크기 입니다. 가치를 정확히 예측하기 위해 Critic 모델은 보통 Actor 모델과 동일하거나 비슷한 파라미터 크기를 가져야 합니다. 즉, 70B(700억) 파라미터 모델을 PPO로 훈련시키려면, 실제로는 Actor와 Critic 모두 70B 크기를 메모리에 올려야 하므로 GPU VRAM 소모량이 2배 로 껑충 뛰게 됩니다. 이는 훈련 인프라 구축 비용을 천문학적으로 높이는 주원인입니다.

2. GRPO의 핵심 아이디어: Critic 모델의 제거

DeepSeek 팀은 비용 효율성을 극대화하기 위해 "Critic 모델 없이 어떻게 Advantage(상대적 이점)를 계산할 수 있을까?" 라는 질문을 던졌고, 그 해답으로 GRPO (Group Relative Policy Optimization) 를 제시했습니다.

GRPO의 핵심 메커니즘은 매우 직관적입니다. 별도의 Value Network를 두어 기준점을 예측하는 대신, 하나의 질문(Prompt)에 대해 모델이 여러 개의 답변(Group)을 생성하게 하고, 그 그룹 내부에서의 상대적인 순위나 점수를 비교하여 기준점을 자체적으로 만드는 것 입니다.

GRPO의 작동 방식 (Step-by-Step)

Group Sampling (그룹 샘플링) : 주어진 질문 $q$에 대해 이전 정책(Old Policy) 모델이 $G$개의 다른 답변 $\{o_1, o_2, ..., o_G\}$를 생성합니다.

Reward Calculation (보상 계산) : 규칙 기반 체커(Rule-based checker)나 보상 모델을 이용해 $G$개의 답변 각각에 대한 보상 점수 $\{r_1, r_2, ..., r_G\}$를 매깁니다. (코드나 수학 문제의 경우, 정답 여부로 명확한 Reward 측정이 가능합니다.)

Relative Advantage (상대적 이점 계산) : $G$개 보상 점수들의 평균($\mu$)과 표준편차($\sigma$)를 구합니다. 이를 이용해 각각의 답변 $o_i$가 그룹 내에서 얼마나 잘했는지 나타내는 상대적 이점(Advantage, $A_i$)을 계산합니다.

$A_i = \frac{r_i - \text{mean}(r_1, ..., r_G)}{\text{std}(r_1, ..., r_G)}$

Policy Optimization (정책 업데이트) : 이 Advantage 값을 사용하여 모델을 업데이트합니다. $A_i$가 양수면 해당 답변을 생성할 확률을 높이고, 음수면 확률을 낮춥니다.

3. GRPO의 수학적 공식 (Formulation)

논문에서 제시된 GRPO의 목적 함수(Objective Function)는 다음과 같습니다. 최적화 과정에서 이 목적 함수 $J_{GRPO}(\theta)$를 최대화하는 방향으로 파라미터 $\theta$가 업데이트됩니다.

$
J_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip} \left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \eta D_{KL}(\pi_\theta || \pi_{ref}) \right) \right]
$

수식을 뜯어보면 PPO와 매우 유사하지만 중요한 차이점들이 존재합니다.

Clipped Surrogate Objective : $\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}$는 이전 모델 대비 현재 모델이 해당 답변을 출력할 확률의 비율(Ratio)입니다. PPO와 마찬가지로 `clip` 함수를 적용하여 한 번의 업데이트로 모델 정책이 너무 급격하게 변하는 것(Destructive update)을 방지합니다.

그룹 기반 Advantage ($A_i$) : Critic 모델(Value Network)의 $V(s)$ 대신, 위에서 언급한 $A_i = \frac{r_i - \mu}{\sigma}$ 를 사용합니다.

KL Divergence Penalty ($ \eta D_{KL}$_ : 모델이 원래 가지고 있던 좋은 지식(Base model의 지식)을 망각하지 않도록 Reference Model($\pi_{ref}$)과의 KL 발산(차이)을 계산해 페널티를 줍니다. DeepSeek은 연산량을 더 줄이기 위해 KL Divergence의 unbiased estimator로 $\frac{\pi_{ref}}{\pi_\theta} - \log \frac{\pi_{ref}}{\pi_\theta} - 1$ 를 활용하기도 합니다.

4. GRPO가 가져온 혁신과 의의

1) 극단적인 메모리 효율성

Actor와 동일한 크기의 Critic 모델 메모리를 완전히 제거했습니다. 이로 인해 훈련에 필요한 VRAM이 획기적으로 감소했으며, DeepSeek이 적은 GPU 자원으로도 최상위권의 추론 모델(DeepSeek-R1)을 훈련시킬 수 있었던 1등 공신이 되었습니다.

2) 훈련의 안정성 (Stability)

두 답변을 비교하는 Pairwise 방식이나, 예측된 절대 가치 $V(s)$에 의존하는 방식보다, 그룹 내에서의 정규화된 상대 평가 는 Reward Scaling 문제에 훨씬 덜 민감합니다. 보상 스케일이 조금 달라지더라도 그룹 평균 및 편차로 정규화(Normalize)되기 때문에 훈련 기울기(Gradient)가 안정적으로 유지됩니다.

3) LLM 추론 능력 향상에 최적화

수학 문제 해결이나 코딩과 같이 정답이 명확한(Rule-based Verification) 태스크에서, GRPO는 모델이 여러 번의 시도(Group)를 통해 스스로 정답을 탐색하고 자기 교정(Self-Correction)을 하도록 돕는데 탁월한 효과를 발휘합니다. DeepSeek-R1-Zero는 SFT(지도 미세 조정) 없이 순수 강화학습(GRPO)만으로 모델이 스스로 생각하는 방법(Thinking Process)을 깨우치는 놀라운 결과를 보여주었습니다.

5. 결론

DeepSeek의 GRPO (Group Relative Policy Optimization) 는 거대하고 무거운 비효율의 대명사였던 기존 LLM 강화학습 아키텍처에서 과감히 다이어트를 단행한 알고리즘입니다. Critic 모델을 제거하고 다중 샘플링을 통한 그룹 상대 평가 방식을 도입함으로써, 비용은 낮추고, 훈련 안정성은 높이며, 추론 능력은 극대화 하는 세 마리 토끼를 잡았습니다.

GRPO는 앞으로 거대 모델의 추론(Reasoning) 능력 향상을 위한 강화학습 파이프라인의 새로운 표준(Standard)으로 굳어질 가능성이 매우 높습니다.

© 2026. All rights reserved.