DDPG算法里的‘演员’和‘评论家’到底在吵什么？用Python代码逐行拆解训练过程

发布时间：2026/5/30 19:42:20

DDPG算法里的‘演员’和‘评论家’到底在吵什么用Python代码逐行拆解训练过程想象一下你正在导演一场没有剧本的即兴戏剧。演员Actor需要在舞台上即兴发挥而评论家Critic则在台下实时点评。这场戏的特殊之处在于——演员的动作可以精确到毫米级的角度变化而评论家的打分标准也在不断调整。这就是DDPG深度确定性策略梯度算法的核心戏剧冲突。让我们用PyTorch代码作为舞台揭开这场表演艺术背后的技术内幕。1. 搭建舞台DDPG的四大角色初始化任何好戏都需要精心搭建舞台。在DDPG的宇宙里我们需要先准备好四个关键神经网络import torch import torch.nn as nn import torch.optim as optim import numpy as np class Actor(nn.Module): def __init__(self, state_dim, action_dim, max_action): super(Actor, self).__init__() self.layer_1 nn.Linear(state_dim, 400) self.layer_2 nn.Linear(400, 300) self.layer_3 nn.Linear(300, action_dim) self.max_action max_action def forward(self, state): x torch.relu(self.layer_1(state)) x torch.relu(self.layer_2(x)) return self.max_action * torch.tanh(self.layer_3(x)) class Critic(nn.Module): def __init__(self, state_dim, action_dim): super(Critic, self).__init__() self.layer_1 nn.Linear(state_dim action_dim, 400) self.layer_2 nn.Linear(400, 300) self.layer_3 nn.Linear(300, 1) def forward(self, state, action): x torch.cat([state, action], dim1) x torch.relu(self.layer_1(x)) x torch.relu(self.layer_2(x)) return self.layer_3(x)这里有两个关键设计决策值得注意Actor的输出层使用tanh将动作限制在[-max_action, max_action]范围内Critic接收状态和动作的拼接这是Q函数的典型设计用于评估(state, action)对的价值四个角色的初始化就像组建剧团# 主演员和主评论家 actor Actor(state_dim, action_dim, max_action) critic Critic(state_dim, action_dim) # 备用演员和备用评论家目标网络 target_actor Actor(state_dim, action_dim, max_action) target_critic Critic(state_dim, action_dim) # 初始时目标网络与主网络参数相同 target_actor.load_state_dict(actor.state_dict()) target_critic.load_state_dict(critic.state_dict())2. 排练过程训练循环中的动态博弈真正的戏剧性冲突发生在训练循环中。让我们分解一个完整的训练步骤2.1 经验收集阶段def select_action(state, noise): state torch.FloatTensor(state.reshape(1, -1)) action actor(state).data.numpy().flatten() return np.clip(action noise, -max_action, max_action) # 在环境中执行动作并存储经验 next_state, reward, done, _ env.step(action) replay_buffer.add(state, action, reward, next_state, done)这里引入的探索噪声就像演员的即兴发挥——在确定性策略中加入随机性避免表演变得刻板。常见的选择是Ornstein-Uhlenbeck噪声它能产生时间相关的随机过程适合物理系统的连续控制。2.2 批评家的学习时刻从经验池采样后Critic开始它的毒舌点评# 计算目标Q值 target_actions target_actor(next_states) target_q_values target_critic(next_states, target_actions) targets rewards (1 - dones) * gamma * target_q_values # 计算当前Q值估计 current_q_values critic(states, actions) # Critic损失函数 critic_loss nn.MSELoss()(current_q_values, targets.detach())Critic的更新包含三个关键点使用目标网络计算target_q_values保持稳定性targets.detach()切断梯度回传防止干扰目标网络(1 - dones)项处理回合终止时的特殊情况2.3 演员的自我修养Actor的更新则更有意思——它试图讨好Criticactor_loss -critic(states, actor(states)).mean()这个简单的表达式蕴含着深度策略梯度通过Critic评估Actor当前策略的表现负号表示我们要最大化这个评估值梯度上升转化为损失函数的极小化2.4 温和的更新软同步机制DDPG最精妙的设计在于目标网络的更新方式def soft_update(target, source, tau): for target_param, param in zip(target.parameters(), source.parameters()): target_param.data.copy_(tau * param.data (1 - tau) * target_param.data) # 更新目标网络 soft_update(target_actor, actor, tau) soft_update(target_critic, critic, tau)这种Polyak平均策略tau通常取0.005就像老演员缓慢吸收新演员的表演风格避免突然的风格转变吓到观众。3. 幕后花絮关键技巧与调试经验在实际制作中有几个幕后技巧决定了演出成败3.1 经验回放的秘密配方class ReplayBuffer: def __init__(self, max_size): self.buffer [] self.max_size max_size def add(self, state, action, reward, next_state, done): if len(self.buffer) self.max_size: self.buffer.pop(0) self.buffer.append((state, action, reward, next_state, done)) def sample(self, batch_size): indices np.random.choice(len(self.buffer), batch_size) states, actions, rewards, next_states, dones zip(*[self.buffer[i] for i in indices]) return np.array(states), np.array(actions), np.array(rewards), np.array(next_states), np.array(dones)经验回放的两个关键参数buffer大小通常1e5到1e6太小导致样本相关性高太大则学习缓慢batch大小一般从128开始尝试复杂任务可能需要更大batch3.2 学习率的舞蹈Actor和Critic通常需要不同的学习节奏actor_optimizer optim.Adam(actor.parameters(), lr1e-4) critic_optimizer optim.Adam(critic.parameters(), lr1e-3)典型配置Critic学习率是Actor的5-10倍太高的Actor学习率会导致策略震荡太低的Critic学习率则使反馈信号滞后3.3 噪声退火策略聪明的导演会随着排练进度减少即兴发挥def update_noise(noise_scale): noise_scale * 0.9999 # 指数衰减 return max(noise_scale, 0.1) # 保持最小探索这种退火策略平衡了初期高噪声促进探索后期低噪声利于策略精修4. 完整演出Pendulum-v1实例解析让我们看一个钟摆平衡的具体案例。以下是训练循环的核心代码for episode in range(total_episodes): state env.reset() episode_reward 0 noise_scale initial_noise for step in range(max_steps): action select_action(state, noise_scale * np.random.randn(action_dim)) next_state, reward, done, _ env.step(action) replay_buffer.add(state, action, reward, next_state, done) state next_state episode_reward reward if len(replay_buffer) batch_size: states, actions, rewards, next_states, dones replay_buffer.sample(batch_size) # 转换为PyTorch张量 states torch.FloatTensor(states) actions torch.FloatTensor(actions) rewards torch.FloatTensor(rewards).unsqueeze(1) next_states torch.FloatTensor(next_states) dones torch.FloatTensor(dones).unsqueeze(1) # Critic更新 critic_optimizer.zero_grad() critic_loss compute_critic_loss(states, actions, rewards, next_states, dones) critic_loss.backward() critic_optimizer.step() # Actor更新 actor_optimizer.zero_grad() actor_loss compute_actor_loss(states) actor_loss.backward() actor_optimizer.step() # 软更新目标网络 soft_update(target_actor, actor, tau) soft_update(target_critic, critic, tau) noise_scale update_noise(noise_scale) print(fEpisode {episode}, Reward: {episode_reward})训练过程中常见的现象记录训练阶段典型现象解决方案初期 (0-1k步)奖励随机波动增加噪声规模增大回放缓冲区中期 (1k-10k步)偶尔出现高分但不稳定检查Critic损失是否收敛调整学习率后期 (10k步)性能平台期尝试减小噪声微调网络结构在Pendulum-v1环境中成功的训练通常会在约50-100个episode后开始出现稳定的摆动策略300个episode左右能达到接近最优的性能。

AI写论文福利来啦！这4款AI论文写作工具，助你快速出稿！

四款AI论文写作工具推荐及测评在撰写期刊论文、毕业论文或职称论文的过程中，学术人员往往遇到不少困扰。人工写作面临大量参考文献，寻找相关资料如同在大海中捞针；严格的格式标准让人焦虑不已；而频繁的内容修改则消磨着写作的耐…

2026/5/30 19:40:39 阅读更多

北斗同步时钟推荐

首推西安同步电子科技的SYN4505A型北斗同步时钟。SYN4505A型北斗同步时钟采用10.1寸大触摸屏及按键设计，内置多模卫星接收机，可同时接受北斗/GPS/GLONASS等卫星信号，硬件同步＜30ns，具备8种告警模式，可对波特…

2026/5/30 19:40:39 阅读更多

Go语言微服务架构设计与实践

Go语言微服务架构设计与实践微服务架构是现代应用开发的主流范式，Go语言凭借其高性能和并发特性成为构建微服务的理想选择。本文将深入探讨如何使用Go语言设计和实现微服务架构。一、微服务架构概述微服务架构将应用拆分为多个独立的服务，每个服务专注…

2026/5/30 19:40:18 阅读更多

190、运动控制中的行业应用：半导体设备（晶圆搬运）

190、运动控制中的行业应用：半导体设备（晶圆搬运）一、一个让我失眠三天的晶圆抖动问题 2019年深秋，我在某半导体设备厂调试一台晶圆搬运机械臂。客户反馈说设备在高速取放晶圆时，偶尔会出现晶圆边缘微米级的划痕。我们排查了真空吸嘴、气路、机械结构，甚至怀疑过晶圆本…

2026/5/30 20:27:14 阅读更多

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置）

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置） 在运维工作中，硬盘故障是最常见却又最容易被忽视的风险点。我曾经历过一次惨痛的教训：某台运行三年的数据库服务器突然宕机…

2026/5/30 20:25:09 阅读更多

UART协议逆向工程实战：破解指纹传感器通信，实现Python跨平台控制

1. 项目概述：从“黑盒”到透明控制最近在捣鼓一个DFRobot的SEN0542电容式指纹传感器模块，这玩意儿本身自带一个上位机软件，功能挺全，但问题在于它是个只有Windows可用的.exe文件。对于习惯在Linux下工作，或者想把传感器…

2026/5/30 20:24:49 阅读更多

【前端交互评测】流式输出（Streaming）的 UI 测试方案：如何验证打字机效果不卡顿？

2026年，流式输出已成为AI应用的标配，但如何系统化地测试“打字机效果”却鲜有人深究。本文给出完整的解决方案。 2026年5月，我接手了一个AI问答系统的前端优化任务——上线后发现用户普遍反馈“打字卡顿”“首字等半天”。产品经理拿着用户截图来找我，上面赫然写着“半天没…

2026/5/30 20:24:49 阅读更多

DIY蓝牙鼠标戒指：可穿戴HID设备在VR飞行模拟中的应用实践

1. 项目概述：当鼠标“戴”在手指上如果你玩过VR飞行模拟，比如DCS World，肯定有过这样的纠结：双手戴着VR手柄，眼睛盯着座舱里密密麻麻的开关仪表，想点个按钮却不得不摸索着去找鼠标——沉浸感瞬间被打破。这…

2026/5/30 20:24:49 阅读更多

Win10环境下的Autodock Vina 1.2.3批量对接实战：从Python热图绘制到结果自动化分析全流程

Win10环境下Autodock Vina 1.2.3高效工作流：从批量对接到热图可视化的完整解决方案在药物发现和分子模拟领域，Autodock Vina作为一款开源的分子对接工具，因其计算速度快、准确性较高而广受欢迎。随着1.2.3版本的发布，虽然带来了一…

2026/5/30 20:24:28 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/30 11:31:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/30 17:07:03 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/30 13:31:32 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章

AI写论文福利来啦！这4款AI论文写作工具，助你快速出稿！

北斗同步时钟推荐

Go语言微服务架构设计与实践

190、运动控制中的行业应用：半导体设备（晶圆搬运）

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置）

UART协议逆向工程实战：破解指纹传感器通信，实现Python跨平台控制

【前端交互评测】流式输出（Streaming）的 UI 测试方案：如何验证打字机效果不卡顿？

DIY蓝牙鼠标戒指：可穿戴HID设备在VR飞行模拟中的应用实践

Win10环境下的Autodock Vina 1.2.3批量对接实战：从Python热图绘制到结果自动化分析全流程

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

SketchUp STL插件终极指南：3D打印工作流完全掌握

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥