图解强化学习 |手算GRPO

发布时间：2026/5/27 7:59:38

欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月26日✉️希望可以和大家一起完成进阶之路目录GRPO 算法的基础认识GRPO 算法的网络结构Actor网络网络更新GRPO 算法的基础认识GRPO Group Relative Policy Optimization分组相对策略优化算法GRPOGroup Relative Policy Optimization可以看作是 PPO 的无 Critic 简化版本。它不再额外训练价值网络而是通过同一组候选回答之间的相对奖励进行归一化来替代 PPO 中的优势函数估计。同时GRPO 保留了 PPO 的裁剪机制以限制策略更新幅度保证训练稳定性并加入 KL 正则项防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的显存与计算开销同时提升训练稳定性和长链推理能力。GRPO 算法的网络结构Actor网络唯一网络Actor —— 策略网络输入状态 / 文本提示词 s输出动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度作用根据输入内容生成输出同时计算概率用于损失更新全程仅依靠这一个网络完成训练补充说明不再单独设计 Q 网络、价值网络、目标网络也无可学习的温度参数网络结构极简训练阶段会引入参考模型固定参数不参与梯度更新仅用来计算 KL 正则项不属于训练网络。网络更新使用GRPO-Clip 裁剪损失 KL 散度正则损失目的更新策略让组内更好的输出概率变高同时限制更新幅度不崩模型、不偏离原始能力。输入状态 / 提示词 s旧策略动作概率 π_old新策略动作概率 π_new组内归一化优势 A来自同一提示词的多个回答奖励参考模型概率 π_ref固定不动用来算 KL计算求概率比 r π_new / π_old裁剪到安全区间 [1-ε, 1ε]取 min (r*A, clip (r)*A) → 得到裁剪损失计算 KL 散度新策略 ↔ 参考模型总损失裁剪损失 β * KL 散度反向传播更新唯一的 Actor特点只有一个网络更新显存占用极低无价值网络无预测误差训练极稳KL 散度约束模型不会学歪、不会退化组内归一化优势自动平衡奖励尺度不用调参

向量数据库与RAG管道：从核心组件到系统工程的关键认知

1. 项目概述：一个常见的认知陷阱最近在和一些团队交流时，我发现一个非常普遍且代价高昂的误解：很多人把向量数据库（Vector Database）和检索增强生成（RAG， Retrieval-Augmented Generation&#…

2026/5/27 7:59:16 阅读更多

WarcraftHelper：魔兽争霸3终极兼容性与功能增强插件完全指南

WarcraftHelper：魔兽争霸3终极兼容性与功能增强插件完全指南【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为魔兽争霸3在现代…

2026/5/27 7:58:56 阅读更多

保姆级教程：用OpenIPC和WFB-NG在Jetson Orin Nano上搭建你的第一套FPV无人机AI视觉链路

从零构建基于Jetson Orin Nano的FPV无人机AI视觉链路实战指南开篇：为什么选择OpenIPCWFB-NG方案？当无人机遇上边缘计算，视觉链路便不再是简单的图像传输管道。Jetson Orin Nano作为NVIDIA新一代边缘AI计算平台，其64位ARM Cortex-A…

2026/5/27 7:58:15 阅读更多

23个心理学技巧提升大语言模型输出质量：从提示工程到思维协作

1. 项目概述：当心理学遇上大语言模型最近在做一个项目，核心目标很明确：如何在不增加模型参数量、不进行复杂微调的前提下，显著提升大语言模型（LLM）的输出质量。我们不是在谈论从GPT-3.5到GPT-4那种代际飞跃…

2026/5/27 8:41:28 阅读更多

Windows Defender彻底移除指南：2025年专业系统安全组件管理工具详解

Windows Defender彻底移除指南：2025年专业系统安全组件管理工具详解【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/g…

2026/5/27 8:41:28 阅读更多

UnityXR 手柄射线与UGUI交互

两种方式：1、TrackedDeviceGraphicRaycaster将TrackedDeviceGraphicRaycaster挂载到Canvas上，结合 EventSystem、XRUIInputModule ，即可实现XR手柄的与UI交互2、TrackedDevicePhysicsRaycaster将TrackedDevicePhysicsRaycaster挂载到摄像机上…

2026/5/27 8:41:28 阅读更多

Yi-1.5-9B-32K量化技术揭秘：降低模型部署成本的关键

Yi-1.5-9B-32K量化技术揭秘：降低模型部署成本的关键【免费下载链接】Yi-1.5-9B-32K 项目地址: https://ai.gitcode.com/hf_mirrors/wuhaicc/Yi-1.5-9B-32K Yi-1.5-9B-32K是一款高性能大语言模型，具备90亿参数和32K上下文窗口，能够处…

2026/5/27 8:41:06 阅读更多

Node.js 包管理利器：npm 核心功能与操作指南

简介 npm（Node Package Manager）是 JavaScript 的包管理工具，主要用于 Node.js 生态系统中依赖项的安装、管理和共享。它是全球最大的软件注册表之一，包含超过 100 万个开源包。核心功能依赖管理：通过 package.js…

2026/5/27 8:40:45 阅读更多

爆款推荐：你的引号出卖了你！教你用Word宏一键消除AI生成的排版痕迹！

在日常办公和写作中，AI已经成了我们的得力助手。但是，很多朋友在把AI生成的内容复制到Word文档时，经常会遇到一个非常头疼且极其容易暴露你使用了AI的排版Bug——中文双引号全部变成了右引号（就像这样：”内容” &#…

2026/5/27 8:40:24 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章

向量数据库与RAG管道：从核心组件到系统工程的关键认知

WarcraftHelper：魔兽争霸3终极兼容性与功能增强插件完全指南

保姆级教程：用OpenIPC和WFB-NG在Jetson Orin Nano上搭建你的第一套FPV无人机AI视觉链路

23个心理学技巧提升大语言模型输出质量：从提示工程到思维协作

Windows Defender彻底移除指南：2025年专业系统安全组件管理工具详解

UnityXR 手柄射线与UGUI交互

Yi-1.5-9B-32K量化技术揭秘：降低模型部署成本的关键

Node.js 包管理利器：npm 核心功能与操作指南

爆款推荐：你的引号出卖了你！教你用Word宏一键消除AI生成的排版痕迹！

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

中国AI岗位暴涨12倍，13种你没听过的AI岗位

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥