欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月26日✉️希望可以和大家一起完成进阶之路目录GRPO 算法的基础认识GRPO 算法的网络结构Actor网络网络更新GRPO 算法的基础认识GRPO Group Relative Policy Optimization分组相对策略优化算法GRPOGroup Relative Policy Optimization可以看作是 PPO 的无 Critic 简化版本。它不再额外训练价值网络而是通过同一组候选回答之间的相对奖励进行归一化来替代 PPO 中的优势函数估计。同时GRPO 保留了 PPO 的裁剪机制以限制策略更新幅度保证训练稳定性并加入 KL 正则项防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的显存与计算开销同时提升训练稳定性和长链推理能力。GRPO 算法的网络结构Actor网络唯一网络Actor —— 策略网络输入状态 / 文本提示词 s输出动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度作用根据输入内容生成输出同时计算概率用于损失更新全程仅依靠这一个网络完成训练补充说明不再单独设计 Q 网络、价值网络、目标网络也无可学习的温度参数网络结构极简训练阶段会引入参考模型固定参数不参与梯度更新仅用来计算 KL 正则项不属于训练网络。网络更新使用GRPO-Clip 裁剪损失 KL 散度正则损失目的更新策略让组内更好的输出概率变高同时限制更新幅度不崩模型、不偏离原始能力。输入状态 / 提示词 s旧策略动作概率 π_old新策略动作概率 π_new组内归一化优势 A来自同一提示词的多个回答奖励参考模型概率 π_ref固定不动用来算 KL计算求概率比 r π_new / π_old裁剪到安全区间 [1-ε, 1ε]取 min (r*A, clip (r)*A) → 得到裁剪损失计算 KL 散度新策略 ↔ 参考模型总损失 裁剪损失 β * KL 散度反向传播更新唯一的 Actor特点只有一个网络更新显存占用极低无价值网络无预测误差训练极稳KL 散度约束模型不会学歪、不会退化组内归一化优势自动平衡奖励尺度不用调参
图解强化学习 |手算GRPO
发布时间:2026/5/27 7:59:38
欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月26日✉️希望可以和大家一起完成进阶之路目录GRPO 算法的基础认识GRPO 算法的网络结构Actor网络网络更新GRPO 算法的基础认识GRPO Group Relative Policy Optimization分组相对策略优化算法GRPOGroup Relative Policy Optimization可以看作是 PPO 的无 Critic 简化版本。它不再额外训练价值网络而是通过同一组候选回答之间的相对奖励进行归一化来替代 PPO 中的优势函数估计。同时GRPO 保留了 PPO 的裁剪机制以限制策略更新幅度保证训练稳定性并加入 KL 正则项防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的显存与计算开销同时提升训练稳定性和长链推理能力。GRPO 算法的网络结构Actor网络唯一网络Actor —— 策略网络输入状态 / 文本提示词 s输出动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度作用根据输入内容生成输出同时计算概率用于损失更新全程仅依靠这一个网络完成训练补充说明不再单独设计 Q 网络、价值网络、目标网络也无可学习的温度参数网络结构极简训练阶段会引入参考模型固定参数不参与梯度更新仅用来计算 KL 正则项不属于训练网络。网络更新使用GRPO-Clip 裁剪损失 KL 散度正则损失目的更新策略让组内更好的输出概率变高同时限制更新幅度不崩模型、不偏离原始能力。输入状态 / 提示词 s旧策略动作概率 π_old新策略动作概率 π_new组内归一化优势 A来自同一提示词的多个回答奖励参考模型概率 π_ref固定不动用来算 KL计算求概率比 r π_new / π_old裁剪到安全区间 [1-ε, 1ε]取 min (r*A, clip (r)*A) → 得到裁剪损失计算 KL 散度新策略 ↔ 参考模型总损失 裁剪损失 β * KL 散度反向传播更新唯一的 Actor特点只有一个网络更新显存占用极低无价值网络无预测误差训练极稳KL 散度约束模型不会学歪、不会退化组内归一化优势自动平衡奖励尺度不用调参