四、蒙特卡洛方法-Q-Learning与DQN

发布时间：2026/6/2 11:22:47

Q-Learning与DQN1. Q表和Q函数Q(s,a)是动作价值函数表示在状态s下执行动作a的期望累积折扣奖励。Q表是Q函数的离散表格表示Q(s,a) E[R_{t1} γR_{t2} γ²R_{t3} ... | S_ts, A_ta]Q函数与V函数的关系V(s) max_a Q(s,a)2. TD(0)更新公式Q-Learning使用TD(0)更新Q(s,a) ← Q(s,a) α[r γ·max_a Q(s,a) - Q(s,a)]TD目标 r γ·max_a’ Q(s’,a’)TD误差 r γ·max_a’ Q(s’,a’) - Q(s,a)3. Q-Learning算法初始化: Q(s,a) 0 for each episode: 初始化状态s while not done: a ε-贪婪(Q, s) 执行a获得(r, s) Q(s,a) ← Q(s,a) α[r γ·max Q(s,a) - Q(s,a)] s ← sQ-Learning是异策略(Off-Policy)算法用ε-贪婪探索但学习最优策略。4. ε-贪婪策略以概率ε随机选择(探索)以概率1-ε选择argmax Q(s,a)(利用)。ε通常随训练逐渐衰减初期高(探索) - 后期低(利用)5. DQN用深度学习近似Q函数当状态空间连续或高维时Q表无法处理。DQN用神经网络近似Q函数Q(s,a;θ) ≈ 神经网络输出的Q值网络结构(CartPole):Input(4) → FC(128,ReLU) → FC(128,ReLU) → Output(2)损失函数L(θ) (r γ·max_a Q(s,a;θ⁻) - Q(s,a;θ))²6. DQN两个关键技巧6.1 经验回放(Experience Replay)存储(s,a,r,s’,done)到回放缓冲区随机采样打乱数据相关性。6.2 目标网络(Target Network)使用两个网络在线网络θ每步更新目标网络θ⁻定期从θ复制。解决追逐移动目标问题稳定训练。7. Double DQN解决max操作导致的过估计问题# 原始DQN: y r γ·max_a Q⁻(s,a;θ⁻) # Double DQN: a* argmax_a Q(s,a;θ) # 在线网络选动作 y r γ·Q⁻(s,a*;θ⁻) # 目标网络评估8. 代码实战importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.nn.functionalasFimportnumpyasnpimportrandomfromcollectionsimportdequeimportgymclassReplayBuffer:def__init__(self,capacity100000):self.bufferdeque(maxlencapacity)defpush(self,state,action,reward,next_state,done):self.buffer.append((state,action,reward,next_state,done))defsample(self,batch_size):batchrandom.sample(self.buffer,batch_size)states,actions,rewards,next_states,doneszip(*batch)return(torch.FloatTensor(np.array(states)),torch.LongTensor(np.array(actions)),torch.FloatTensor(np.array(rewards)),torch.FloatTensor(np.array(next_states)),torch.FloatTensor(np.array(dones)))def__len__(self):returnlen(self.buffer)classQNetwork(nn.Module):def__init__(self,state_dim,action_dim,hidden_dim128):super().__init__()self.fc1nn.Linear(state_dim,hidden_dim)self.fc2nn.Linear(hidden_dim,hidden_dim)self.fc3nn.Linear(hidden_dim,action_dim)defforward(self,state):xF.relu(self.fc1(state))xF.relu(self.fc2(x))returnself.fc3(x)classDQNAgent:def__init__(self,state_dim,action_dim):self.gamma0.99self.epsilon1.0self.epsilon_min0.01self.epsilon_decay0.995self.target_update_freq10self.batch_size64self.train_step0self.action_dimaction_dim self.q_netQNetwork(state_dim,action_dim)self.target_netQNetwork(state_dim,action_dim)self.target_net.load_state_dict(self.q_net.state_dict())self.optimizeroptim.Adam(self.q_net.parameters(),lr1e-3)self.replay_bufferReplayBuffer()defselect_action(self,state,trainingTrue):iftrainingandrandom.random()self.epsilon:returnrandom.randint(0,self.action_dim-1)withtorch.no_grad():q_valuesself.q_net(torch.FloatTensor(state).unsqueeze(0))returnq_values.argmax().item()defupdate(self):iflen(self.replay_buffer)self.batch_size:returnstates,actions,rewards,next_states,donesself.replay_buffer.sample(self.batch_size)current_qself.q_net(states).gather(1,actions.unsqueeze(1)).squeeze(1)withtorch.no_grad():next_actionsself.q_net(next_states).argmax(1)next_qself.target_net(next_states).gather(1,next_actions.unsqueeze(1)).squeeze(1)target_qrewardsself.gamma*next_q*(1-dones)lossF.mse_loss(current_q,target_q)self.optimizer.zero_grad()loss.backward()self.optimizer.step()self.train_step1ifself.train_step%self.target_update_freq0:self.target_net.load_state_dict(self.q_net.state_dict())self.epsilonmax(self.epsilon_min,self.epsilon*self.epsilon_decay)returnloss.item()deftrain():envgym.make(CartPole-v1)agentDQNAgent(4,2)reward_historydeque(maxlen100)forepisodeinrange(500):state,_env.reset()total_reward0whileTrue:actionagent.select_action(state)next_state,reward,done,truncated,_env.step(action)agent.replay_buffer.push(state,action,reward,next_state,done)agent.update()statenext_state total_rewardrewardifdoneortruncated:breakreward_history.append(total_reward)ifepisode%100:print(fEpisode{episode}: Reward{total_reward}, Avg{np.mean(reward_history):.2f})iflen(reward_history)100andnp.mean(reward_history)195:print(fSuccess at episode{episode}!)breakenv.close()returnagentif__name____main__:agenttrain()9. 记忆口诀Q表Q函数两兄弟动作价值我最行 TD学习三要素bootstrap不含糊 Q-Learning是异策ε贪婪来探索 max Q值做更新目标策略最最优探索利用两平衡初期随机后期精 DQN用网来近似函数逼近顶呱呱经验回放破相关随机采样打乱序目标网络来冻结训练过程更从容 Double DQN解过估选择评估两分开在线选动作target来评估核心公式要记牢 Q(s,a) ← Q(s,a) α[r γ·max Q(s,a) - Q(s,a)]

nli-distilroberta-base惊艳效果：中英文混合句子对推理准确率超89.2%

nli-distilroberta-base惊艳效果：中英文混合句子对推理准确率超89.2% 1. 项目概述 nli-distilroberta-base是基于DistilRoBERTa模型的自然语言推理(NLI)Web服务，专门用于判断两个句子之间的逻辑关系。这个轻量级模型在保持高性能的同时，大幅…

2026/6/3 0:08:56 阅读更多

Paging3深度实战：如何构建高性能Android分页加载架构

Paging3深度实战：如何构建高性能Android分页加载架构【免费下载链接】AndroidX-Jetpack-Practice 本仓库致力于建立最全、最新的的 AndroidX Jetpack 相关组件的实践项目以及组件对应的分析文章（持续更新中）如果对你有帮助，请在…

2026/6/2 16:02:30 阅读更多

避开这5个坑！TP-Link路由器无线桥接失败原因全排查

TP-Link无线桥接实战指南：5大常见问题深度解析与精准解决方案引言：为什么你的无线桥接总是失败？ 每次看到家里Wi-Fi信号死角，总想着再加个路由器扩展覆盖范围。可当你兴冲冲买回TP-Link路由器准备桥接时，却发现要么连…

2026/5/30 13:27:59 阅读更多

SpringBoot搭建智慧社区康养疗养服务管理系统源码实战

智慧社区养老是当下智慧城市建设的重要组成部分，传统社区康养管理依靠人工登记、纸质存档、线下排班的模式，存在服务跟进不及时、健康数据更新滞后、服务工单无法溯源、资源分配不合理等诸多问题。为解决基层社区康养服务数字化落地难题，本文…

2026/6/3 0:07:59 阅读更多

基层社区康养运维系统疗养服务与人员管理源码方案

随着基层社区养老、康养服务的规范化推进，传统社区线下康养管理模式逐渐暴露出管理松散、服务记录混乱、人员排班无序、老人康养档案缺失等问题。多数社区康养工作依靠纸质台账、人工登记完成，不仅效率低下，也不利于康养服务的追溯、统计与常…

2026/6/3 0:07:59 阅读更多

Linux 组调度的 cfs_bandwidth 结构体：带宽控制的核心配置

简介在 Linux CFS 完全公平调度体系中，传统基于 nice 权重的调度仅能实现 CPU 时间按比例均分，无法对控制组（cgroup v1/cgroup v2）做硬性 CPU 使用上限约束。随着容器技术 Docker、K8s 大规模落地，云主机资源配额隔离、…

2026/6/3 0:07:38 阅读更多

标注软件WPF-LabelImg的使用教程

添加类别标签导出Yolo的标注

2026/6/3 0:07:38 阅读更多

Linux内核启动参数“黑话”大全：从console到panic，这些cmdline参数到底怎么用？

Linux内核启动参数完全指南：从基础配置到高级调优1. 理解Linux内核启动参数的本质Linux内核启动参数（cmdline）是系统启动时传递给内核的一组关键指令，它们像一把瑞士军刀，能够在不重新编译内核的情况下调整系统行为。这…

2026/6/3 0:06:58 阅读更多

用AI视觉语言模型UI-TARS-desktop：自然语言控制电脑的终极解决方案

用AI视觉语言模型UI-TARS-desktop：自然语言控制电脑的终极解决方案【免费下载链接】UI-TARS-desktop The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TAR…

2026/6/3 0:06:58 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

nli-distilroberta-base惊艳效果：中英文混合句子对推理准确率超89.2%

Paging3深度实战：如何构建高性能Android分页加载架构

避开这5个坑！TP-Link路由器无线桥接失败原因全排查

SpringBoot搭建智慧社区康养疗养服务管理系统源码实战

基层社区康养运维系统疗养服务与人员管理源码方案

Linux 组调度的 cfs_bandwidth 结构体：带宽控制的核心配置

标注软件WPF-LabelImg的使用教程

Linux内核启动参数“黑话”大全：从console到panic，这些cmdline参数到底怎么用？

用AI视觉语言模型UI-TARS-desktop：自然语言控制电脑的终极解决方案

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因