强化学习实战：从 DQN 到 PPO 的完整指南

发布时间：2026/6/21 3:36:34

强化学习实战从 DQN 到 PPO 的完整指南1. 引言强化学习RL是让智能体通过与环境交互来学习最优策略的方法。从 Atari 游戏到机器人控制从 RLHF 到代码生成RL 的应用越来越广泛。本文将从基础概念到前沿算法系统讲解强化学习。核心概念智能体 (Agent) ←→ 环境 (Environment) - 状态 (State): s_t - 动作 (Action): a_t - 奖励 (Reward): r_t - 策略 (Policy): π(a|s) - 价值函数 (Value): V(s) 或 Q(s,a) 目标最大化累积奖励 E[Σ γ^t · r_t]2. DQNDeep Q-Network2.1 原理Q-learning 更新规则 Q(s,a) ← Q(s,a) α[r γ·max Q(s,a) - Q(s,a)] DQN 改进 1. 用神经网络近似 Q 函数 2. 经验回放Experience Replay 3. 目标网络Target Network2.2 DQN 实现importtorchimporttorch.nnasnnimportnumpyasnpfromcollectionsimportdequeimportrandomclassDQN(nn.Module):DQN 网络def__init__(self,state_dim,action_dim,hidden256):super().__init__()self.netnn.Sequential(nn.Linear(state_dim,hidden),nn.ReLU(),nn.Linear(hidden,hidden),nn.ReLU(),nn.Linear(hidden,action_dim),)defforward(self,x):returnself.net(x)classReplayBuffer:经验回放缓冲区def__init__(self,capacity100000):self.bufferdeque(maxlencapacity)defpush(self,state,action,reward,next_state,done):self.buffer.append((state,action,reward,next_state,done))defsample(self,batch_size):batchrandom.sample(self.buffer,batch_size)states,actions,rewards,next_states,doneszip(*batch)return(torch.FloatTensor(np.array(states)),torch.LongTensor(actions),torch.FloatTensor(rewards),torch.FloatTensor(np.array(next_states)),torch.FloatTensor(dones),)def__len__(self):returnlen(self.buffer)classDQNAgent:DQN 智能体def__init__(self,state_dim,action_dim,lr1e-3,gamma0.99,epsilon_start1.0,epsilon_end0.01,epsilon_decay0.995):self.action_dimaction_dim self.gammagamma self.epsilonepsilon_start self.epsilon_endepsilon_end self.epsilon_decayepsilon_decay# Q 网络和目标网络self.q_netDQN(state_dim,action_dim)self.target_netDQN(state_dim,action_dim)self.target_net.load_state_dict(self.q_net.state_dict())self.optimizertorch.optim.Adam(self.q_net.parameters(),lrlr)self.bufferReplayBuffer()defselect_action(self,state):ε-贪婪策略ifrandom.random()self.epsilon:returnrandom.randint(0,self.action_dim-1)withtorch.no_grad():state_ttorch.FloatTensor(state).unsqueeze(0)q_valuesself.q_net(state_t)returnq_values.argmax(dim1).item()deftrain_step(self,batch_size64):训练一步iflen(self.buffer)batch_size:returnstates,actions,rewards,next_states,donesself.buffer.sample(batch_size)# 当前 Q 值q_valuesself.q_net(states).gather(1,actions.unsqueeze(1)).squeeze(1)# 目标 Q 值withtorch.no_grad():next_qself.target_net(next_states).max(dim1)[0]target_qrewardsself.gamma*next_q*(1-dones)# 更新lossnn.MSELoss()(q_values,target_q)self.optimizer.zero_grad()loss.backward()self.optimizer.step()returnloss.item()defupdate_target(self):更新目标网络self.target_net.load_state_dict(self.q_net.state_dict())defdecay_epsilon(self):衰减探索率self.epsilonmax(self.epsilon_end,self.epsilon*self.epsilon_decay)2.3 训练循环importgymnasiumasgymdeftrain_dqn(env_nameCartPole-v1,episodes500):envgym.make(env_name)state_dimenv.observation_space.shape[0]action_dimenv.action_space.n agentDQNAgent(state_dim,action_dim)rewards_history[]forepisodeinrange(episodes):state,_env.reset()total_reward0whileTrue:actionagent.select_action(state)next_state,reward,terminated,truncated,_env.step(action)doneterminatedortruncated agent.buffer.push(state,action,reward,next_state,float(done))agent.train_step()statenext_state total_rewardrewardifdone:breakagent.decay_epsilon()ifepisode%100:agent.update_target()rewards_history.append(total_reward)ifepisode%500:avgnp.mean(rewards_history[-50:])print(fEpisode{episode}, Avg Reward:{avg:.1f}, ε:{agent.epsilon:.3f})returnagent3. 策略梯度Policy Gradient3.1 REINFORCE 算法classPolicyNetwork(nn.Module):策略网络def__init__(self,state_dim,action_dim,hidden256):super().__init__()self.netnn.Sequential(nn.Linear(state_dim,hidden),nn.ReLU(),nn.Linear(hidden,hidden),nn.ReLU(),nn.Linear(hidden,action_dim),nn.Softmax(dim-1),)defforward(self,x):returnself.net(x)deftrain_reinforce(env_nameCartPole-v1,episodes1000,lr1e-3,gamma0.99):envgym.make(env_name)state_dimenv.observation_space.shape[0]action_dimenv.action_space.n policyPolicyNetwork(state_dim,action_dim)optimizertorch.optim.Adam(policy.parameters(),lrlr)forepisodeinrange(episodes):states,actions,rewards[],[],[]state,_env.reset()whileTrue:state_ttorch.FloatTensor(state).unsqueeze(0)probspolicy(state_t)actiontorch.multinomial(probs,1).item()next_state,reward,terminated,truncated,_env.step(action)doneterminatedortruncated states.append(state)actions.append(action)rewards.append(reward)statenext_stateifdone:break# 计算折扣回报returns[]G0forrinreversed(rewards):Grgamma*G returns.insert(0,G)returnstorch.FloatTensor(returns)returns(returns-returns.mean())/(returns.std()1e-8)# 策略梯度更新states_ttorch.FloatTensor(np.array(states))actions_ttorch.LongTensor(actions)probspolicy(states_t)log_probstorch.log(probs.gather(1,actions_t.unsqueeze(1)).squeeze(1))loss-(log_probs*returns).mean()optimizer.zero_grad()loss.backward()optimizer.step()ifepisode%500:print(fEpisode{episode}, Total Reward:{sum(rewards):.1f})4. PPOProximal Policy Optimization4.1 核心思想PPO 通过裁剪目标函数限制策略更新幅度 L_CLIP E[min(r_t(θ)·A_t, clip(r_t(θ), 1-ε, 1ε)·A_t)] 其中 r_t(θ) π_θ(a|s) / π_θ_old(a|s) 概率比 A_t 优势函数估计 ε 裁剪参数通常 0.1-0.24.2 PPO 实现classPPO:PPO 算法def__init__(self,state_dim,action_dim,lr3e-4,gamma0.99,gae_lambda0.95,clip_epsilon0.2,epochs10):self.gammagamma self.gae_lambdagae_lambda self.clip_epsilonclip_epsilon self.epochsepochs# Actor-Critic 网络self.actorPolicyNetwork(state_dim,action_dim)self.criticnn.Sequential(nn.Linear(state_dim,256),nn.ReLU(),nn.Linear(256,256),nn.ReLU(),nn.Linear(256,1),)self.optimizertorch.optim.Adam(list(self.actor.parameters())list(self.critic.parameters()),lrlr)defcompute_gae(self,rewards,values,dones):计算 GAE广义优势估计advantages[]gae0fortinreversed(range(len(rewards))):iftlen(rewards)-1:next_value0else:next_valuevalues[t1]deltarewards[t]self.gamma*next_value*(1-dones[t])-values[t]gaedeltaself.gamma*self.gae_lambda*(1-dones[t])*gae advantages.insert(0,gae)returns[advvalforadv,valinzip(advantages,values)]returntorch.FloatTensor(advantages),torch.FloatTensor(returns)defupdate(self,trajectories):PPO 更新statestorch.FloatTensor(np.array(trajectories[states]))actionstorch.LongTensor(trajectories[actions])old_log_probstorch.FloatTensor(trajectories[log_probs])rewardstrajectories[rewards]valuestrajectories[values]donestrajectories[dones]advantages,returnsself.compute_gae(rewards,values,dones)advantages(advantages-advantages.mean())/(advantages.std()1e-8)for_inrange(self.epochs):# 当前策略probsself.actor(states)log_probstorch.log(probs.gather(1,actions.unsqueeze(1)).squeeze(1))current_valuesself.critic(states).squeeze(1)# 概率比ratiotorch.exp(log_probs-old_log_probs)# 裁剪目标surr1ratio*advantages surr2torch.clamp(ratio,1-self.clip_epsilon,1self.clip_epsilon)*advantages actor_loss-torch.min(surr1,surr2).mean()# Critic 损失critic_lossnn.MSELoss()(current_values,returns)# 熵正则化entropy-(probs*torch.log(probs1e-8)).sum(dim-1).mean()# 总损失lossactor_loss0.5*critic_loss-0.01*entropy self.optimizer.zero_grad()loss.backward()torch.nn.utils.clip_grad_norm_(list(self.actor.parameters())list(self.critic.parameters()),0.5)self.optimizer.step()5. 强化学习在 LLM 中的应用# PPO 在 RLHF 中的应用简化版fromtrlimportPPOTrainer,PPOConfig configPPOConfig(learning_rate1.41e-5,batch_size64,ppo_epochs4,kl_penaltykl,init_kl_coef0.2,)# 奖励来自人类偏好训练的奖励模型# 策略是 LLM 本身# 状态是 prompt动作是生成的 token6. 算法对比算法类型动作空间样本效率稳定性DQN值函数离散高中REINFORCE策略梯度连续/离散低低A2CActor-Critic连续/离散中中PPOActor-Critic连续/离散高高SACActor-Critic连续高高7. 总结强化学习的核心算法DQN值函数方法适合离散动作空间策略梯度直接优化策略适合连续动作PPO当前最流行的通用 RL 算法稳定高效RLHFPPO 在 LLM 对齐中的成功应用

嵌入式emWin多任务GUI开发：RTOS配置与窗口管理实战

1. 项目概述：从单任务到多任务GUI的跃迁在嵌入式系统里做图形界面开发，最头疼的莫过于既要保证界面流畅，又要兼顾后台任务的实时性。早年做单任务系统，一个while(1)循环里轮询按键、刷新界面，虽然简单粗暴，…

2026/6/21 3:35:53 阅读更多

10分钟快速上手：抖音批量下载神器完整指南

10分钟快速上手：抖音批量下载神器完整指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音批量…

2026/6/21 3:35:33 阅读更多

如何高效无损合并B站缓存视频：m4s-converter完整使用指南

如何高效无损合并B站缓存视频：m4s-converter完整使用指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter m4s-converter是一款专为B站…

2026/6/21 3:35:12 阅读更多

PUFFIN框架：结合结构与功能监督的蛋白质功能单元发现

1. 从“黑盒”到“白盒”：为什么我们需要发现蛋白质单元？在蛋白质科学领域，我们常常面临一个核心矛盾：我们拥有海量的蛋白质序列和结构数据，也积累了大量的功能注释信息，但我们仍然难以系统地、可解释地理解…

2026/6/21 4:50:15 阅读更多

UVa 544 Heavy Cargo

题目描述题目要求在一个无向图中，找到从起点到终点的路径，使得路径上的最小边权最大（即最大化最小承载重量）。输出这个最大承载重量。输入格式每个测试用例第一行包含两个整数 nnn（2≤n≤2002 \le n \le 2002≤n≤2…

2026/6/21 4:48:34 阅读更多

2026世界杯尼日利亚：非洲雄鹰，奥斯梅恩欲率队展翅？

2026世界杯尼日利亚：非洲雄鹰，奥斯梅恩欲率队展翅？尼日利亚“非洲雄鹰”的名号在世界杯赛场从不陌生。2026年，那不勒斯神锋奥斯梅恩正值巅峰，他的存在让尼日利亚拥有了非洲区最令人胆寒的进攻火力，球队目标…

2026/6/21 4:47:13 阅读更多

五艘无人艇分布式协同围捕编队控制仿真系统理论分析（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 &#x1f381…

2026/6/21 4:46:33 阅读更多

基于六自由度模型的 UUV 三维运动仿真体系理论分析研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 &#x1f381…

2026/6/21 4:46:12 阅读更多

GLM-5.1优惠券实操指南：国产大模型如何嵌入VS Code/Cursor开发流

1. 项目概述：一张优惠券背后的国产大模型实践入口最近在几个开发者群和AI工具交流频道里，频繁看到有人发“智普 GLM-5.1 优惠券，想玩国产模型的去领”这类消息。我点进去看了好几轮，发现这不是营销噱头，而是智普官方近…

2026/6/21 4:44:31 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/21 0:00:02 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/21 0:00:02 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:22 阅读更多

Google AI Studio 300美元额度的真相与实战指南

2026/6/21 0:00:02 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

2026/6/21 0:00:02 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

2026/6/21 0:00:22 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/20 11:30:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/20 11:30:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/20 11:30:09 阅读更多

相关文章

嵌入式emWin多任务GUI开发：RTOS配置与窗口管理实战

10分钟快速上手：抖音批量下载神器完整指南

如何高效无损合并B站缓存视频：m4s-converter完整使用指南

PUFFIN框架：结合结构与功能监督的蛋白质功能单元发现

UVa 544 Heavy Cargo

2026世界杯尼日利亚：非洲雄鹰，奥斯梅恩欲率队展翅？

五艘无人艇分布式协同围捕编队控制仿真系统理论分析（Matlab代码实现）

基于六自由度模型的 UUV 三维运动仿真体系理论分析研究（Matlab代码实现）

GLM-5.1优惠券实操指南：国产大模型如何嵌入VS Code/Cursor开发流

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因