GRPO算法 在当前的 AI 工业界GRPOGroup Relative Policy Optimization群体相对策略优化绝对是风头最劲的强化学习算法。作为由 DeepSeek 团队在其DeepSeekMath、DeepSeek-R1以及后续推理大模型中首次引入并彻底带火的算法GRPO 的出现重塑了大模型 RLHF基于人类反馈的强化学习的格局。它的核心贡献可以概括为一句话在不牺牲性能的前提下通过极其巧妙的“群体相对比较”直接在架构里砍掉了庞大且昂贵的评论家网络Critic Network让大模型强化学习的显存和算力开销骤降。1. 痛点为什么传统的 PPO 练不起了在 GRPO 出现之前大模型对齐特别是让模型学会长文本推理、思维链 O1 化的主流算法是PPO近端策略优化。PPO 采用的是典型的Actor-Critic演员-评论家架构。在训练大模型时这意味着你需要同时在显存里塞下两个同样庞大的模型Actor演员网络大模型本体负责生成回答也就是我们最终要用的模型。Critic评论家网络专门用来给 Actor 生成的每一个 Token 甚至每句话评估打分计算价值函数Value Function。致命弱点Critic 网络往往和 Actor 一样大。这意味着如果你想微调一个 70B700 亿参数的模型你得在显存里额外再养一个 70B 的 Critic 监督它。这不仅造成了巨大的显存浪费还导致 Actor 和 Critic 之间复杂的分布式同步极难进行工程优化。2. 破局GRPO 的群体相对评级机制GRPO 的核心思想非常简单粗暴却直击 PPO 的痛点既然单独养一个 Critic 算基础分这么贵我们为什么不让大模型对同一个问题同时生成一堆回答然后让他们自己内部进行“内卷”和“相对比较”呢GRPO 的工作流程群体采样Group Sampling对于输入的提示词Promptqqq让当前的 Actor 模型策略πθ\pi_\thetaπθ​同时生成一整组回答通常是GGG个比如G4G 4G4或888我们称之为一组输出{o1,o2,o3,…,oG}\{o_1, o_2, o_3, \dots, o_G\}{o1​,o2​,o3​,…,oG​}奖励打分Reward Scoring通过一个轻量级的外部裁判可以是一个基于规则的评测器比如检查代码是否运行正确、数学答案是否正确或者是一个独立的、不需要训练的外部小 Reward Model给这GGG个回答分别打出原始奖励分数{r1,r2,r3,…,rG}\{r_1, r_2, r_3, \dots, r_G\}{r1​,r2​,r3​,…,rG​}相对优势计算Relative Advantage这就是 GRPO 最具魔力的地方。它不需要 Critic 去预测每个状态的绝对价值而是直接计算这组分数在当前群体内的相对好坏标准化归一化。通过计算这组分数的平均值Mean和标准差Std第iii个回答的相对优势Advantage,AiA_iAi​定义为Airi−mean(r)std(r)A_i \frac{r_i - \text{mean}(r)}{\text{std}(r)}Ai​std(r)ri​−mean(r)​如果某个回答的得分高于平均水平AiA_iAi​就是正的模型就会被鼓励以后多这么写如果某个回答的得分垫底低于平均水平AiA_iAi​就是负的模型就会被惩罚。策略更新Policy Update利用计算出的相对优势AiA_iAi​加上 PPO 经典的剪切损失Clip Loss和 KL 散度约束防止大模型一次性改得太离谱直接更新 Actor 的权重。3. GRPO 的三大革命性优势斩断 Critic显存暴省由于直接通过群体内的相对分数算出了优势函数GRPO 彻底不需要训练和维护任何 Critic 网络了。这直接为训练集群释放了大量的显存在大模型微调中这相当于节省了近半的系统级开销允许开发者用同样的硬件去训练更大规模的模型或者把 Batch Size 开得更大。天生适合“推理型任务”Reasoning在数学题或编程任务中中间的思维链CoT往往长达几千字Critic 极难准确评估中间某一步的绝对价值。而 GRPO 采用最终结果导向Outcome-based通过在一组回答里筛选出“哪些思维链成功推导出了正确答案哪些没推出来”来进行相对强化这种群体优胜劣汰的机制被证明能极高效率地激发出模型的自我反思和自主推理能力DeepSeek-R1 的惊艳表现正是得益于此。工程并行度极高在分布式 GPU 集群上单模型多样本的采样Generation/Rollout可以做到极致的并行。GRPO 纯粹的数据收集和无 Critic 交互特性让它非常容易在 Megatron-LM、Ray 或 OpenRLHF 等分布式框架上进行高度流水线化扩展。4. 总结与行业反思从 PPO 到 GRPO 的演进不仅是算法公式上的小修小改更是一种工程思维与学术思维的完美结合。它用“统计学内部对抗”巧妙化解了“二阶绝对价值评估”的物理算力壁垒。目前GRPO 已经超越了学术研究的范畴成为了各大 AI 团队在尝试将开源模型如 Llama-3、Qwen进行“O1 式推理能力强化”时的绝对首选标配算法。