强化学习第四讲

发布时间：2026/5/22 2:00:45

图1深度强化学习智能体与环境交互示意图。该图展示了强化学习的核心交互循环智能体Agent观察环境状态State基于策略Policy选择动作Action环境接收动作后转移到新状态并给出奖励Reward。智能体的目标是学习最优策略以最大化长期累积奖励。图2PPO算法训练曲线或网络架构示意图。如果是训练曲线展示了平均回报随训练步数的变化趋势反映了算法的收敛性和稳定性如果是网络架构图则展示了PPO算法中策略网络Actor和价值网络Critic的结构以及可能的特征共享层设计。1. 强化学习定义本文通过两张示意图引出了深度强化学习的核心概念与实践流程。第一张图阐述了智能体与环境交互的基本范式这是所有强化学习算法的理论基础。第二张图则可能展示了具体算法如 PPO的训练动态或网络架构为理解算法实现提供了直观参考。随后我们详细拆解了实现深度强化学习项目的关键操作步骤从环境搭建、智能体设计到数据收集与策略更新形成了一个完整的闭环。掌握这些技术点与步骤有助于读者从理论过渡到实践逐步构建和优化自己的强化学习智能体。深度强化学习仍在快速发展结合更强大的网络架构如 Transformer、更高效的探索机制以及离线强化学习等新技术将在机器人控制、游戏 AI、自动驾驶等领域持续创造价值。第一张图片展示了深度强化学习Deep Reinforcement Learning, DRL中智能体与环境交互的基本框架。图中清晰地划分了智能体Agent、环境Environment、状态State、动作Action和奖励Reward这几个核心组件。其技术要点在于理解这是一个闭环反馈系统智能体根据当前状态选择动作环境接收动作后转移到下一个状态并给出奖励智能体的目标就是学习一个策略Policy以最大化长期累积奖励。现代深度强化学习算法如 DQN、PPO正是利用深度神经网络来近似这个策略函数或价值函数从而处理高维状态空间如图像输入。第二张图片则可能呈现了某个具体算法例如近端策略优化 PPO的训练曲线或网络结构图。如果它是训练曲线那么横轴通常是训练步数steps或回合数episodes纵轴可能是平均回报average return。图中上升或波动的趋势直观反映了算法学习的效果和稳定性。如果它是网络结构图则展示了智能体内部价值网络Value Network和策略网络Policy Network的架构以及它们如何共享特征提取层Shared Backbone。理解这些可视化图表对于调试模型、选择超参数如学习率、折扣因子至关重要。关键操作步骤基于上述框架实现一个基本的深度强化学习项目通常包含以下步骤环境搭建使用 OpenAI Gym、MuJoCo 或自定义环境定义状态空间、动作空间和奖励函数。importgymimportnumpyasnp# 1. 创建经典控制环境例如 CartPoleenvgym.make(CartPole-v1)# 2. 查看环境的基本信息print(f状态空间:{env.observation_space})# 例如 Box(4,)print(f动作空间:{env.action_space})# 例如 Discrete(2)# 3. 重置环境获取初始状态stateenv.reset()print(f初始状态:{state})# 4. 与环境交互一个步骤的示例actionenv.action_space.sample()# 随机选择一个动作next_state,reward,done,infoenv.step(action)print(f执行动作:{action}, 奖励:{reward}, 是否结束:{done})# 5. 关闭环境重要env.close()# 注对于连续动作空间环境如 MuJoCo动作空间类型为 Box# 自定义环境需继承 gym.Env 并实现 reset() 和 step() 方法智能体设计选择算法如 PPO并搭建相应的神经网络。通常包括importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassActorNetwork(nn.Module):策略网络Actor输入状态输出动作的概率分布def__init__(self,state_dim,action_dim,hidden_dim64):super(ActorNetwork,self).__init__()self.fc1nn.Linear(state_dim,hidden_dim)self.fc2nn.Linear(hidden_dim,hidden_dim)self.fc3nn.Linear(hidden_dim,action_dim)# 输出动作 logitsdefforward(self,state):xF.relu(self.fc1(state))xF.relu(self.fc2(x))logitsself.fc3(x)# 未归一化的 logitsreturnlogitsclassCriticNetwork(nn.Module):价值网络Critic输入状态评估当前状态的价值def__init__(self,state_dim,hidden_dim64):super(CriticNetwork,self).__init__()self.fc1nn.Linear(state_dim,hidden_dim)self.fc2nn.Linear(hidden_dim,hidden_dim)self.fc3nn.Linear(hidden_dim,1)# 输出状态价值defforward(self,state):xF.relu(self.fc1(state))xF.relu(self.fc2(x))valueself.fc3(x)# 标量状态价值returnvalue# 使用示例假设环境为 CartPole-v1state_dim4# CartPole 的状态维度action_dim2# CartPole 的动作空间大小离散2个动作actorActorNetwork(state_dim,action_dim)criticCriticNetwork(state_dim)# 前向传播示例dummy_statetorch.randn(1,state_dim)# 批量大小为1action_logitsactor(dummy_state)state_valuecritic(dummy_state)print(f动作 logits 形状:{action_logits.shape})# [1, 2]print(f状态价值形状:{state_value.shape})# [1, 1]# 注实际 PPO 实现中两个网络可能共享部分底层特征提取层# 此处为清晰起见将 Actor 和 Critic 设计为独立网络策略网络Actor输入状态输出动作的概率分布。价值网络Critic输入状态评估当前状态的价值。数据收集让智能体在环境中运行收集状态、动作、奖励、下一状态的数据序列trajectories。优势估计使用广义优势估计GAE等方法计算每个时间步的优势函数衡量动作的相对好坏。策略更新计算策略梯度并使用 PPO 的裁剪Clipping机制或信任域方法更新策略网络参数确保更新步幅不会太大。价值函数更新通过最小化价值网络的预测值与实际回报或 TD 目标之间的均方误差来更新价值网络。迭代与评估重复步骤 3-6定期在测试环境中评估智能体的性能并保存最佳模型。图3数据收集与轨迹采样示意图。展示了智能体在环境中执行多个episode收集状态-动作-奖励序列轨迹的过程。这些轨迹数据用于后续的策略评估和更新。图4优势估计与策略更新流程图。展示了如何从收集的轨迹中计算优势函数Advantage Function并使用PPO的裁剪机制更新策略网络参数确保更新步幅在信任域内。2. 强化学习算法图5强化学习算法分类与比较图。展示了强化学习算法的分类体系包括基于值函数的方法如Q-learning、DQN、基于策略的方法如REINFORCE、PPO以及结合两者的Actor-Critic方法。图6基于值函数与基于策略的算法对比图。对比了两类算法的核心思想、优缺点和适用场景帮助读者根据具体问题选择合适的算法类型。2.1 价值函数图7状态价值函数与动作价值函数示意图。展示了状态价值函数V(s)和动作价值函数Q(s,a)的定义和关系是理解值函数方法的基础。图8贝尔曼方程与动态规划原理图。解释了贝尔曼方程如何将当前状态价值与未来状态价值联系起来以及动态规划如何利用这一关系进行值函数迭代。图9Q-learning算法更新过程示意图。展示了Q-learning算法中Q值的更新规则包括选择动作、观察奖励和下一状态然后更新Q表的过程。图10深度Q网络DQN架构图。展示了DQN如何用深度神经网络近似Q函数包括经验回放Experience Replay和目标网络Target Network两个关键技术。图11价值函数近似与神经网络拟合示意图。展示了如何用神经网络参数化值函数将高维状态空间映射到标量价值解决传统表格方法维度灾难问题。3. 权衡Trade-off4. 案例5. 总结与展望5.1 核心流程与关键技术点总结本文系统性地介绍了深度强化学习DRL从理论到实践的全过程。核心流程可概括为以下闭环环境交互框架智能体通过观察环境状态、执行动作、接收奖励的循环与环境交互目标是学习最大化长期累积奖励的最优策略。算法分类体系包括基于值函数的方法如 Q-learning、DQN、基于策略的方法如 REINFORCE、PPO以及结合两者的 Actor-Critic 方法。关键技术组件环境建模使用 Gym、MuJoCo 等工具定义状态空间、动作空间和奖励函数。神经网络架构策略网络Actor输出动作分布价值网络Critic评估状态价值。数据收集与采样通过轨迹采样获取状态-动作-奖励序列。优势估计使用广义优势估计GAE衡量动作的相对优势。策略优化采用 PPO 的裁剪机制等信任域方法稳定策略更新。价值函数更新通过最小化时序差分误差优化价值网络。实践实现步骤从环境搭建、智能体设计、数据收集到策略更新的完整工程化流程配合具体的 Python 代码示例为读者提供了可操作的实践指南。5.2 未来发展趋势展望深度强化学习作为人工智能的前沿领域未来将在以下几个方向持续突破大语言模型与强化学习的深度融合指令跟随与规划利用大语言模型LLMs的自然语言理解能力将高层任务指令分解为可执行的强化学习子任务。知识引导探索将 LLMs 中编码的世界知识作为先验引导智能体在复杂环境中的探索减少无效尝试。奖励函数设计通过自然语言描述奖励目标自动生成或调整奖励函数降低人工设计成本。多智能体强化学习MARL协作与竞争研究智能体在混合动机环境中的合作、竞争与沟通机制应用于自动驾驶车队协调、多机器人系统等。可扩展性开发能够处理大量智能体交互的算法解决信用分配、非平稳性等挑战。社会智能模拟人类社会的合作、谈判、联盟形成等复杂行为。安全、鲁棒性与可解释性安全约束确保智能体在探索过程中不执行危险动作在机器人控制、医疗决策等安全关键领域尤为重要。对抗鲁棒性提高智能体对环境扰动、传感器噪声和对抗性攻击的鲁棒性。可解释性开发可视化工具和解释性方法使智能体的决策过程对人类透明建立信任。样本效率与离线强化学习高效探索结合基于模型的方法、好奇心驱动探索等减少与环境交互所需的样本量。离线强化学习直接从静态数据集中学习策略无需在线交互适用于数据收集成本高或危险的环境。跨领域应用拓展科学发现应用于药物设计、材料发现、蛋白质折叠等科学研究领域。工业优化优化制造流程、供应链管理、能源调度等复杂系统。创意生成辅助艺术创作、音乐作曲、游戏关卡设计等创造性任务。5.3 结语深度强化学习正从实验室走向现实世界其“试错学习”的本质与人类和动物的学习方式有着深刻的相似性。随着算法不断成熟、计算资源日益丰富以及与其他 AI 技术的交叉融合DRL 有望在解决复杂序列决策问题上发挥更大作用。然而挑战依然存在——包括样本效率、安全性、泛化能力等。未来的研究需要算法创新、理论突破与工程实践并重推动强化学习成为更强大、更可靠、更普惠的人工智能工具。对于初学者而言掌握本文所述的核心流程与关键技术点是踏入这一领域的坚实第一步。建议读者从经典环境如 CartPole、MountainCar和算法如 PPO、DQN入手亲手实现代码逐步深入理解其内在机理进而探索更前沿的研究方向与应用场景。

FastDeploy在凌蒙派RISC-V开发板的边缘AI部署实战

1. 项目概述：当边缘AI开发板遇上高效推理引擎最近在折腾一块叫“凌蒙派”的开发板，这板子挺有意思，主打RISC-V架构和高能效比，很适合做边缘端的AI应用部署。但玩过边缘设备的朋友都知道，把训练好的模型真正跑起来&…

2026/5/22 2:00:25 阅读更多

FastDeploy在凌蒙派开发板的边缘AI部署实战：从交叉编译到RKNN模型优化

1. 项目概述：当边缘AI开发板遇上高效推理框架最近在折腾一个边缘AI项目，手头正好有一块凌蒙派开发板，性能不错，但想把训练好的模型高效地部署上去，总感觉有点“水土不服”。模型转换、算子支持、性能优化……每一步都可…

2026/5/22 2:00:25 阅读更多

基于MR6450核心板的工业控制平台EPC6450-AWI硬件设计与开发实战

1. 项目概述：当工业控制遇上高性能核心最近在工控圈子里，MR6450这颗核心板的热度一直居高不下，很多朋友都在问，有没有一款能把它性能完全“榨干”的工控底板。这不，我们团队打磨了快半年的EPC6450-AWI工控板终于可以拿…

2026/5/22 2:00:25 阅读更多

Pico手柄震动开发实战：从API调用到毫秒级同步的完整链路

1. 为什么Pico手柄震动不是“调个API就完事”——一个被低估的触觉反馈工程Unity里给Pico手柄加震动，很多人第一反应是翻Pico官方SDK文档，找到SetControllerVibration或者类似接口，传两个浮点数进去，跑起来——手柄嗡一下&#xf…

2026/5/22 2:34:57 阅读更多

净水器选购避坑：识破滤芯套路，理性控制成本

随着健康饮水意识提升，净水器成为现代家庭标配。市场上产品从几百到几千元不等，技术类型多样，选购看似简单，实则暗藏不少套路。尤其滤芯作为核心耗材，往往是商家利润重点，消费者需擦亮眼睛，避开…

2026/5/22 2:34:36 阅读更多

为什么你的ElevenLabs沪语输出像“洋泾浜”？资深ASR工程师用12组基频曲线图揭示声调失准根源

更多请点击： https://codechina.net 第一章：沪语语音合成的声调失准现象全景扫描沪语（上海话）作为典型的吴语代表，具有复杂的连读变调系统与高辨义性声调特征，这使得其语音合成在声调建模环节极易出现系统…

2026/5/22 2:33:35 阅读更多

解锁Midjourney大画幅秘密：3步实现电影级宽幅输出（含17组实测--ar 16:9至32:9全适配prompt模板）

更多请点击： https://codechina.net 第一章：Midjourney大画幅输出的核心原理与视觉范式 Midjourney的大画幅输出并非简单缩放像素，而是基于其扩散模型对高维潜在空间的结构化采样与语义一致性重合成。其核心依赖于隐式超分辨率（I…

2026/5/22 2:33:35 阅读更多

农业信息智能化种植系统（10079）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/22 2:33:35 阅读更多

Unity技能系统设计：从数据建模到运行时执行的完整闭环

1. 这不是又一个“拖拽式编辑器”教程，而是角色技能系统从设计到落地的完整闭环在Unity项目里，我见过太多团队把“技能编辑器”当成UI界面开发任务来对待：美术出个面板草图，程序照着切几个按钮，再套个ScriptableObject…

2026/5/22 2:33:15 阅读更多

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

5月21日，华泰柏瑞中韩半导体ETF（513310.SH）延续强势表现，当日收盘价报5.625元，涨幅达4.52%，盘中交投异常活跃，换手率109.80%，量比为1.32，市场资金交易热情高涨。然而&…

2026/5/22 0:00:46 阅读更多

11. 架构：前端工程化与状态管理实战

写在前面：如果说后端 MVT 引擎是 GIS 系统的“心脏”，那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中，如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑，是决定项目成败的关键。今天，我们将深入 light-mvt-server 的前端核心，看看如何利用 Vite …

2026/5/22 0:01:27 阅读更多

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mi…

2026/5/22 0:02:07 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

FastDeploy在凌蒙派RISC-V开发板的边缘AI部署实战

FastDeploy在凌蒙派开发板的边缘AI部署实战：从交叉编译到RKNN模型优化

基于MR6450核心板的工业控制平台EPC6450-AWI硬件设计与开发实战

Pico手柄震动开发实战：从API调用到毫秒级同步的完整链路

净水器选购避坑：识破滤芯套路，理性控制成本

为什么你的ElevenLabs沪语输出像“洋泾浜”？资深ASR工程师用12组基频曲线图揭示声调失准根源

解锁Midjourney大画幅秘密：3步实现电影级宽幅输出（含17组实测--ar 16:9至32:9全适配prompt模板）

农业信息智能化种植系统（10079）

Unity技能系统设计：从数据建模到运行时执行的完整闭环

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

11. 架构：前端工程化与状态管理实战

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)