图解强化学习 |手算PG算法

发布时间：2026/5/23 15:30:43

欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月23日✉️希望可以和大家一起完成进阶之路目录PG算法的基础认识PG的网络结构策略网络Policy Network网络更新网络更新过程带基线的 PG手动计算PG算法的基础认识Policy Gradient策略梯度算法传统价值算法DQN只能选离散最优动作连续动作场景难以适配PG直接优化决策策略离散、连续动作空间都能适用不靠估值选动作直接更新策略参数需跑完完整回合汇总数据后再更新。PG的网络结构策略网络Policy NetworkPG 只有一个网络Actor 网络没有 Critic没有价值输出。输入当前的状态S输出动作的概率输入状态 s (6维) ↓ 全连接层 1 (ReLU) ↓ 全连接层 2 (ReLU) ↓ 输出层 → Softmax → 动作概率 [p0, p1, p2]PG 不输出价值只输出动作概率网络更新网络更新过程目的让总奖励高的动作被选中的概率变大让总奖励低的动作概率变小直接优化决策策略。1采集一整条回合数据。从游戏开始到结束收集所有的状态 s、动作 a、奖励 r、是否结束 donePG 必须等一整局玩完才能更新2计算每一步动作的累计折扣回报 Gₜ。从当前步开始到回合结束所有未来奖励的加权总和Gₜ 越大 → 这个动作越好Gₜ 越小 → 这个动作越差3前向传播计算动作的对数概率将状态 s 输入 PG 策略网络得到动作概率 π(a|s)再取对数4计算 PG 损失函数5反向传播更新网络参数最小化损失 → 等价于最大化总奖励→ 好动作概率上升坏动作概率下降PG 更新收集整局数据 → 算总回报 G → 用 -logπ * G 做损失 → 让好动作更容易被选中log_prob log( 你刚才选的那个动作的概率 )用 log_prob乘积求导转为加减求导梯度计算数学上更简便最大化动作概率等价最大化对数概率适配深度学习最小损失的优化范式。作用只有一个告诉网络我刚才选了哪个动作。因为概率永远 1所以log_prob 永远是负数。0.9 → -0.10.5 → -0.690.1 → -2.3G累计奖励G 代表你刚才做的这个动作到底好不好G 越大 → 动作越好G 越小 → 动作越差带基线的 PG下面的流程图中我们并没有使用回报而是使用了优势函数区别在于之前用 G_t两个动作都被强化因为 G_t 都是正的现在用 Advantage只强化“比平均好”的动作抑制“比平均差”的动作baseline的确定最简单的方式比如可以使用用当前 batch 的平均回报G [2.8, 2.0]b (2.8 2.0) / 2 2.4b0 b1 2.4手动计算动作空间{左(0), 右(1)}折扣因子γ 0.9批次先看单条轨迹B1长度 T2策略网络给定状态输出动作概率softmax 后t 0输入当前状态s输出 logitsz0 [0.2, 1.0]softmax 得到概率πθ(a|s0) softmax(z0)≈ [0.31, 0.69] P(左)0.31 P(右)0.69采样动作a0 1右环境反馈奖励r0 1进入下一状态s1t 1z1 [1.2, 0.3]πθ(a|s1) ≈ [0.71, 0.29]a1 0左r1 2τ {s0, a01, r01,s1, a10, r12}计算 Return回报1PG算法叫做策略梯度算法因为直接对策略进行梯度优化2策略梯度公式3回合制更新

如何快速解决Windows语言兼容问题：Locale Remulator终极配置指南

如何快速解决Windows语言兼容问题：Locale Remulator终极配置指南【免费下载链接】Locale_Remulator System Region and Language Simulator. 项目地址: https://gitcode.com/gh_mirrors/lo/Locale_Remulator Locale Remulator是一款强大的系统区域和语言模拟…

2026/5/23 15:30:43 阅读更多

turtle 海龟的朝向

1、默认标准模式下，turtle的朝向向右2、turtle.mode("logo")模式下，turtle的朝向向上绝对坐标seth()：例如：turtle.seth(180)，处在不同的模式下，朝向不同1、默认标准模式下，turtle 的角…

2026/5/23 15:30:43 阅读更多

高通410随身WiFi固件编译避坑指南：从Ubuntu环境配置到内核5.15升级

高通410随身WiFi固件编译全流程实战：Ubuntu环境精调与内核5.15升级深度解析当开源社区的预编译固件无法满足特定硬件驱动或文件系统需求时，自主编译成为技术极客的必经之路。本文将以高通410芯片的随身WiFi设备为硬件载体，深入剖析从Ubuntu环…

2026/5/23 15:29:42 阅读更多

R型单相隔离变压器选型指南：抗干扰型与电源型核心差异解析

1. 项目概述：R型单相隔离变压器的选型迷思与实战解析在电子设备研发、工业控制或者精密仪器维护的一线待久了，你手边肯定少不了几台隔离变压器。它们就像电路里的“防火墙”，默默守护着后端娇贵的负载，隔离危险，净化电…

2026/5/23 18:13:22 阅读更多

Cape沙箱深度解析：动态分析工作流与三层架构实践

1. 为什么 Cape 不是“又一个沙箱”，而是动态分析工作流的枢纽节点在恶意软件分析这个行当里，我见过太多人把沙箱当成“点一下就出报告”的黑盒玩具。装个 Cuckoo，跑个样本，看到“suspicious API calls”就截图发群里喊“这玩意儿…

2026/5/23 18:13:02 阅读更多

TikTok客户端关键字符串追踪与ttencrypt协议解析

1. 这不是“破解”，而是协议层的工程化还原很多人看到“TikTok算法逆向”第一反应是：这得用IDA Pro硬啃SO文件、在ARM汇编里找特征码、对着混淆后的Java层反复脱壳——其实大错特错。我过去三年深度参与过5个主流短视频App的客户端通信分析项目&#xff…

2026/5/23 18:12:21 阅读更多

Android Automotive HAL层开发避坑指南：从Vehicle模块源码看如何实现一个稳定的VHAL服务

Android Automotive VHAL开发实战：从架构解析到性能调优全攻略 1. VHAL核心架构深度剖析在Android Automotive生态系统中，Vehicle HAL(VHAL)作为连接车载硬件与上层应用的关键中间层，其设计直接影响整个车机系统的稳定性和响应速度。现代VHA…

2026/5/23 18:12:21 阅读更多

利用Token Plan套餐降低高频API调用项目的整体成本

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度利用Token Plan套餐降低高频API调用项目的整体成本对于拥有稳定且大量模型调用需求的企业或项目团队而言，直接按量计费…

2026/5/23 18:11:20 阅读更多

军事动态目标重构：UWB定点局限，无感定位全域空间实时建模

军事动态目标重构：UWB定点局限，无感定位全域空间实时建模现代军事演训、战术推演、实战化管控，核心诉求是全域空间可视化、动态目标三维重构、态势实时同步。UWB定位受限于“定点离散、空间割裂、动态失准”的架构瓶颈，仅能实现单…

2026/5/23 18:11:00 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/23 18:05:03 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…