GRPO算法

发布时间：2026/6/7 19:40:07

在当前的 AI 工业界GRPOGroup Relative Policy Optimization群体相对策略优化绝对是风头最劲的强化学习算法。作为由 DeepSeek 团队在其DeepSeekMath、DeepSeek-R1以及后续推理大模型中首次引入并彻底带火的算法GRPO 的出现重塑了大模型 RLHF基于人类反馈的强化学习的格局。它的核心贡献可以概括为一句话在不牺牲性能的前提下通过极其巧妙的“群体相对比较”直接在架构里砍掉了庞大且昂贵的评论家网络Critic Network让大模型强化学习的显存和算力开销骤降。1. 痛点为什么传统的 PPO 练不起了在 GRPO 出现之前大模型对齐特别是让模型学会长文本推理、思维链 O1 化的主流算法是PPO近端策略优化。PPO 采用的是典型的Actor-Critic演员-评论家架构。在训练大模型时这意味着你需要同时在显存里塞下两个同样庞大的模型Actor演员网络大模型本体负责生成回答也就是我们最终要用的模型。Critic评论家网络专门用来给 Actor 生成的每一个 Token 甚至每句话评估打分计算价值函数Value Function。致命弱点Critic 网络往往和 Actor 一样大。这意味着如果你想微调一个 70B700 亿参数的模型你得在显存里额外再养一个 70B 的 Critic 监督它。这不仅造成了巨大的显存浪费还导致 Actor 和 Critic 之间复杂的分布式同步极难进行工程优化。2. 破局GRPO 的群体相对评级机制GRPO 的核心思想非常简单粗暴却直击 PPO 的痛点既然单独养一个 Critic 算基础分这么贵我们为什么不让大模型对同一个问题同时生成一堆回答然后让他们自己内部进行“内卷”和“相对比较”呢GRPO 的工作流程群体采样Group Sampling对于输入的提示词Promptqqq让当前的 Actor 模型策略πθ\pi_\thetaπθ同时生成一整组回答通常是GGG个比如G4G 4G4或888我们称之为一组输出{o1,o2,o3,…,oG}\{o_1, o_2, o_3, \dots, o_G\}{o1,o2,o3,…,oG}奖励打分Reward Scoring通过一个轻量级的外部裁判可以是一个基于规则的评测器比如检查代码是否运行正确、数学答案是否正确或者是一个独立的、不需要训练的外部小 Reward Model给这GGG个回答分别打出原始奖励分数{r1,r2,r3,…,rG}\{r_1, r_2, r_3, \dots, r_G\}{r1,r2,r3,…,rG}相对优势计算Relative Advantage这就是 GRPO 最具魔力的地方。它不需要 Critic 去预测每个状态的绝对价值而是直接计算这组分数在当前群体内的相对好坏标准化归一化。通过计算这组分数的平均值Mean和标准差Std第iii个回答的相对优势Advantage,AiA_iAi定义为Airi−mean(r)std(r)A_i \frac{r_i - \text{mean}(r)}{\text{std}(r)}Aistd(r)ri−mean(r)如果某个回答的得分高于平均水平AiA_iAi就是正的模型就会被鼓励以后多这么写如果某个回答的得分垫底低于平均水平AiA_iAi就是负的模型就会被惩罚。策略更新Policy Update利用计算出的相对优势AiA_iAi加上 PPO 经典的剪切损失Clip Loss和 KL 散度约束防止大模型一次性改得太离谱直接更新 Actor 的权重。3. GRPO 的三大革命性优势斩断 Critic显存暴省由于直接通过群体内的相对分数算出了优势函数GRPO 彻底不需要训练和维护任何 Critic 网络了。这直接为训练集群释放了大量的显存在大模型微调中这相当于节省了近半的系统级开销允许开发者用同样的硬件去训练更大规模的模型或者把 Batch Size 开得更大。天生适合“推理型任务”Reasoning在数学题或编程任务中中间的思维链CoT往往长达几千字Critic 极难准确评估中间某一步的绝对价值。而 GRPO 采用最终结果导向Outcome-based通过在一组回答里筛选出“哪些思维链成功推导出了正确答案哪些没推出来”来进行相对强化这种群体优胜劣汰的机制被证明能极高效率地激发出模型的自我反思和自主推理能力DeepSeek-R1 的惊艳表现正是得益于此。工程并行度极高在分布式 GPU 集群上单模型多样本的采样Generation/Rollout可以做到极致的并行。GRPO 纯粹的数据收集和无 Critic 交互特性让它非常容易在 Megatron-LM、Ray 或 OpenRLHF 等分布式框架上进行高度流水线化扩展。4. 总结与行业反思从 PPO 到 GRPO 的演进不仅是算法公式上的小修小改更是一种工程思维与学术思维的完美结合。它用“统计学内部对抗”巧妙化解了“二阶绝对价值评估”的物理算力壁垒。目前GRPO 已经超越了学术研究的范畴成为了各大 AI 团队在尝试将开源模型如 Llama-3、Qwen进行“O1 式推理能力强化”时的绝对首选标配算法。

Rollout

在强化学习（Reinforcement Learning, RL）中，Rollout（通常译为“轨迹采样”或“试错展开”） 是一个极度高频的核心术语。简单来说，Rollout 就是让智能体（Agent）按照当前的策略&#…

2026/6/7 19:40:07 阅读更多

Pong是什么

Pong 既是电子游戏历史上的开山鼻祖之一，也是现代强化学习（Reinforcement Learning, RL）和计算机视觉（CV）领域中最经典的基准测试环境（Benchmark）。无论是想用 C 练手面向对象编程、在 FPGA 上…

2026/6/7 19:40:07 阅读更多

专业级免费相机应用：OpenCamera 完全指南 - 解锁Android手机摄影潜能

专业级免费相机应用：OpenCamera 完全指南 - 解锁Android手机摄影潜能【免费下载链接】OpenCamera Open camera project - multi-functional camera application for android. 项目地址: https://gitcode.com/gh_mirrors/op/OpenCamera OpenCamera是一款功能…

2026/6/7 19:40:07 阅读更多

低压CPU配高端独显：性能瓶颈与系统平衡深度解析

1. 项目概述：当“低压”心脏遇上“高端”肌肉在挑选笔记本，尤其是那些标榜“高性能”的轻薄本时，一个经典的配置组合常常让人既心动又困惑：一颗专为长续航和低发热设计的“低压”处理器，搭配一块听起来很唬人的“高端”…

2026/6/7 20:47:42 阅读更多

workbuddy ，node.js 每次会在项目目录上安装 node_modules,能不能一次安装多次使用，为什么 npm 不把包装在全局

workbuddy ，node.js 每次会在项目目录上安装 \node_modules ，而不是把他放到node.js的安装目录或者系统的path 中导致 ，类似的功能都要载入安装程序包很慢你的问题核心是：npm 默认把包安装在项目本地 node_modules&#…

2026/6/7 20:47:21 阅读更多

CSDN AI数字营销企业采购必读：团购门槛、账号绑定规则、续费锁价机制（内部渠道限时开放中）

更多请点击： https://intelliparadigm.com 第一章：企业批量开多账号使用 CSDN AI 数字营销有没有团购优惠？ CSDN AI 数字营销平台面向企业用户提供了多账号协同运营能力，支持按组织架构统一管理多个开发者/运营者账号。目前平台…

2026/6/7 20:46:41 阅读更多

抖音批量下载工具完全指南：5分钟掌握无水印视频下载技巧

抖音批量下载工具完全指南：5分钟掌握无水印视频下载技巧【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback sup…

2026/6/7 20:46:41 阅读更多

晶振采购实战指南：从参数到供应链，保障电子项目稳定心跳

1. 项目概述：为什么晶振品质是电子项目的“心跳”？在任何一个电子项目中，无论是你手头那块小小的智能手表，还是产线上复杂的工业控制器，晶振都扮演着那个默默无闻却又至关重要的角色——系统的心跳。它提供的精准时钟信…

2026/6/7 20:46:20 阅读更多

Visdom 0.2.x 可直接运行的完整部署包，含前后端全部文件与预编译缓存

本文还有配套的精品资源，点击获取简介：开箱即用的Visdom可视化服务包，内置server.py服务入口、VERSION版本标识、login.html登录页和index.html主界面，静态资源目录static已完整包含js、css、fonts等前端依赖，还提…

2026/6/7 20:45:39 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/7 9:41:13 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/7 9:41:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/7 9:41:13 阅读更多

相关文章

Rollout

Pong是什么

专业级免费相机应用：OpenCamera 完全指南 - 解锁Android手机摄影潜能

低压CPU配高端独显：性能瓶颈与系统平衡深度解析

workbuddy ，node.js 每次会在 项目目录上安装 node_modules,能不能一次安装多次使用，为什么 npm 不把包装在全局

CSDN AI数字营销企业采购必读：团购门槛、账号绑定规则、续费锁价机制（内部渠道限时开放中）

抖音批量下载工具完全指南：5分钟掌握无水印视频下载技巧

晶振采购实战指南：从参数到供应链，保障电子项目稳定心跳

Visdom 0.2.x 可直接运行的完整部署包，含前后端全部文件与预编译缓存

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

workbuddy ，node.js 每次会在项目目录上安装 node_modules,能不能一次安装多次使用，为什么 npm 不把包装在全局