[쉽게 읽는 AI] 인공지능은 어떻게 똑똑해질까? PPO와 GRPO 이야기

[쉽게 읽는 AI] 인공지능은 어떻게 똑똑해질까? PPO와 GRPO 이야기 Published on: 2026-05-24 서론 최근 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 AI 모델들이 사람처럼 수학 문제를 풀고 논리적으로 추론하는 모습을 보며 신기해하신 적이 있으실 겁...

[쉽게 읽는 AI] 인공지능은 어떻게 똑똑해질까? PPO와 GRPO 이야기

Published on: 2026-05-24

서론

최근 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 AI 모델들이 사람처럼 수학 문제를 풀고 논리적으로 추론하는 모습을 보며 신기해하신 적이 있으실 겁니다. AI가 이렇게 똑똑해진 숨은 일등 공신은 바로 '강화학습(Reinforcement Learning)' 이라는 기술입니다.

강화학습은 쉽게 말해 "AI에게 당근과 채찍을 주며 스스로 학습하게 만드는 방법" 입니다. 오늘날 AI 정렬(인간의 의도에 맞추는 작업)의 핵심 기둥이 된 두 가지 대표적인 알고리즘, PPO 와 GRPO 를 초보자도 이해할 수 있는 비유와 함께 수학적·기하학적 원리까지 알기 쉽게 풀어드리겠습니다.

1. PPO (Proximal Policy Optimization)

"사고방식이 급변하지 않도록 제어하는 안전장치"

PPO Actor-Critic 아키텍처

📌 기원과 유래: "너무 똑똑하지만 너무 복잡했던 선배를 넘어서다"

PPO는 2017년 챗GPT의 개발사인 OpenAI의 연구원들이 발표한 알고리즘입니다.

당시 AI 학계에는 TRPO 라는 아주 훌륭한 알고리즘이 있었습니다. AI가 한 번에 너무 큰 깨달음을 얻고 행동을 급격하게 바꾸면, 오히려 기존에 잘하던 것까지 까먹고 학습이 망가지는(학습 붕괴) 고질적인 문제가 있었는데, TRPO는 이를 완벽하게 막아주는 '안전 구역(Trust Region)'을 설정해 큰 인기를 끌었습니다.

하지만 TRPO는 수학 공식이 너무나도 복잡하고 계산량이 엄청나서 컴퓨터가 비명을 지를 정도였습니다. 이때 등장한 PPO는 "TRPO의 안전성이라는 철학은 그대로 가져가되, 계산은 초등학생 수준으로 쉽게 바꾸자!" 해서 탄생했습니다. 구현이 너무나 간단하고 성능이 뛰어나, 챗GPT를 포함한 현대 대부분의 AI를 가르치는 표준 기술로 자리 잡았습니다.

🧮 수학적 해설: "이번 행동, 평소보다 얼마나 잘했니? (어드밴티지)"

PPO의 수학적 핵심은 '클리핑(Clipping, 잘라내기) 기술' 입니다.

AI가 어떤 행동을 했을 때, PPO는 예전 정책($\pi_{\theta_{old}}$)과 지금 정책($\pi_\theta$)의 확률 비율을 계산합니다. 이를 $r_t(\theta)$라고 부릅니다.
여기에 '어드밴티지($\hat{A}_t$, 우위 점수)' 라는 것을 곱해줍니다. 어드밴티지란 "네가 예상했던 것보다 이 행동이 얼마나 더 좋았는가?" 를 나타내는 점수입니다.

$L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t) \right]$

이 공식이 말하는 바는 아주 단순합니다.

만약 AI가 아주 멋진 답변을 해서 칭찬(어드밴티지 > 0)을 받았다면, AI는 그 행동을 더 자주 하려고 할 것입니다.

하지만 행동 확률을 너무 급격히 높여서 기존 대비 $1+\epsilon$(예: 1.2배)을 넘어가면, 공식의 clip 기능이 작동해 "더 이상은 너무 과해! 보상을 고정하겠어" 라며 성장을 제한합니다. 반대로 너무 나쁜 행동을 했을 때도 급격한 변화를 막아줍니다.

📐 기하학적 해설: "절벽 대신 평평한 고원(Plateau) 만들기"

PPO의 클리핑된 목적 함수 그래프

수학적 공간을 기하학적인 지형으로 상상해 봅시다. AI가 더 좋은 성능을 찾아 산을 오르는 과정(경사상승법)입니다.

일반적인 강화학습은 잘못하면 절벽 아래로 굴러떨어져 처음부터 다시 시작해야 합니다. 하지만 PPO의 지형에는 독특하게도 산꼭대기 주변에 '평평한 고원(Plateau)' 이 존재합니다.

AI가 안전 구역(1-$\epsilon$ ~ 1+$\epsilon$)을 벗어나는 순간, 지형의 경사도가 갑자기 $0$이 되어 평평해집니다. 경사가 $0$이라는 것은 밀어주는 힘이 사라진다는 뜻이므로, AI는 더 이상 멀리 가지 못하고 그 자리에 멈추게 됩니다. 즉, 파라미터 공간 공간 속에서 AI가 너무 큰 보폭으로 도약하다가 미끄러지지 않도록 단단한 안전 펜스를 쳐둔 모양새 입니다.

2. GRPO (Group Relative Policy Optimization)

"선생님을 없애고, 학생들끼리 토론하며 배우기"

GRPO의 그룹 상대 샘플링 과정

📌 기원과 유래: "거대 AI 시대의 최대 적, '메모리 부족'을 해결하라"

GRPO는 2024년 중국의 혁신적인 AI 기업인 DeepSeek(딥시크) 가 발표한 알고리즘입니다. 최근 딥시크가 전 세계를 뒤흔든 배경에는 바로 이 알고리즘이 있었습니다.

기존 PPO 방식을 아주 거대한 언어 모델(LLM)에 적용하려니 치명적인 문제가 있었습니다. PPO는 AI가 행동할 때마다 "그 행동이 절대적으로 몇 점짜리 시험지인지" 채점해 주는 '전문 채점관(Critic, 비평가 모델)' 을 따로 고용해야 했습니다. 이 채점관 모델 역시 AI 모델만큼 덩치가 커서, 컴퓨터의 기억장치(VRAM/메모리)를 2배로 잡아먹는 주범이었습니다.

딥시크 연구진은 기발한 아이디어를 냈습니다. "비싼 채점관을 없애고, AI에게 똑같은 문제를 여러 번 풀게 한 다음, 지들끼리 비교해서 채점하게 하면 어떨까?" 그렇게 탄생한 것이 바로 GRPO입니다. 채점관이 사라지니 메모리가 엄청나게 절약되어, 훨씬 적은 비용으로 대규모 학습이 가능해졌습니다.

🧮 수학적 해설: "상대평가 점수(Z-score)로 스스로 깨닫기"

GRPO는 절대적인 점수를 매기지 않고, 하나의 질문($q$)에 대해 AI가 스스로 $G$개(예: 5개)의 답변 그룹을 동시에 만듭니다.

5개의 답변에 대해 간단한 규칙(정답 여부, 글자 수 등)으로 보상 점수($R_i$)를 줍니다.

이 5개 점수의 평균($\mu_R$) 과 표준편차($\sigma_R$) 를 구합니다.

각 답변의 최종 어드밴티지($\hat{A}_i$)를 다음과 같이 상대적인 점수(Z-score) 로 바꿉니다.

$\hat{A}_i = \frac{R_i - \mu_R}{\sigma_R}$

이 수식이 의미하는 바는 "내가 방금 만든 5개의 생각 중에서, 이 답변은 평균보다 얼마나 뛰어난가?" 를 뜻합니다. 채점관의 절대 평가 없이도, 그룹 내에서 상대적으로 우수한 답변의 확률은 높이고, 부족했던 답변의 확률은 낮추는 방식으로 수학적 최적화가 이루어집니다.

📐 기하학적 해설: "지도 없이 주변을 더듬어 나아가는 별 모양(Star-burst) 탐색"

기하학적으로 비교하면 차이가 명확합니다.

PPO 는 채점관(Critic)이 미리 그려놓은 거대한 전역 지형도(Value Landscape)를 보며 한 발짝씩 걸어갑니다. 안전하지만 지도를 유지하는 비용이 큽니다.

GRPO 는 지도가 전혀 없습니다. 대신 현재 위치에서 사방으로 여러 개의 안테나(G개의 답변 궤적)를 별 모양(Star-burst)으로 뻗어봅니다.

뻗어 나간 안테나들끼리 서로 높이를 비교하여 "아, 3번 안테나가 있는 쪽이 우리 중엔 제일 높구나!"라는 것을 파악하고, 그 방향으로 중심점을 이동시킵니다. 전역 지도가 없으니 멀리 있는 산의 높이는 알 수 없지만, 지금 발을 딛고 있는 국소적인 위치에서는 어느 방향이 오르막길인지 편향(Bias) 없이 가장 정확하고 빠르게 찾아낼 수 있는 기하학적 이점 을 가집니다.

3. 한눈에 보는 요약 (일반인 버전)

비교 항목

PPO (기존 방식)

GRPO (최신 방식)

쉽게 말하면?

엄격한 개인 과외 (선생님이 상주함)

방과 후 모둠 스터디 (학생끼리 비교함)

필요한 것

문제를 푸는 학생 + 채점해 주는 선생님(Critic)

문제를 푸는 학생 (스스로 여러 번 풂)

컴퓨터 비용

선생님 모델 무게 때문에 메모리 부담 가중

선생님이 없어서 메모리 대폭 절약

학습 방식

절대적인 기준치(예상 점수)와 비교하며 성장

내가 뱉은 답변들의 평균과 비교하는 상대평가

기하학적 직관

안전 울타리(고원)를 쳐놓고 지도를 보며 걷기

제자리에서 사방을 찔러보며(별 모양 탐색) 나아가기

💡 결론

PPO 는 AI가 너무 갑작스럽게 변해서 길을 잃지 않도록 '수학적 안전 벨트' 를 채워준 위대한 기술입니다.

GRPO 는 그 안전 벨트의 원리는 계승하되, 거대 AI 시대에 걸맞게 '절대 평가 대신 상대 평가' 라는 기발한 기하학적 발상의 전환을 통해 효율성을 극대화한 최신 기술입니다.

결국 이 두 알고리즘 덕분에 인공지능은 인간의 피드백을 받아 더 안전하고, 더 논리적이며, 더 사람다운 답변을 할 수 있도록 진화하고 있습니다.

© 2026. All rights reserved.