贝尔曼方程的原理与在强化学习的应用

发布时间：2026/6/12 12:52:51

目录1.引言2.动作价值函数Qπ(s,a)的贝尔曼期望方程3.最优动作价值Q∗(s,a)贝尔曼最优方程最优策略π∗4.贝尔曼方程在强化学习算法中的实现步骤5.贝尔曼期望方程的python实现1.引言在强化学习马尔可夫决策过程框架中环境由五元组(S,A,P,R,γ)定义S为有限状态集合A为动作集合P(s′,r∣s,a)是状态转移与奖励联合概率R为即时奖励函数γ∈[0,1]为折扣因子智能体策略π(a∣s)代表在状态s下选取动作a的条件概率所有价值函数、贝尔曼方程都建立在这套MDP标准框架之上。2.动作价值函数Qπ(s,a)的贝尔曼期望方程状态价值Vπ(s)的物理含义智能体从状态s出发持续遵循策略π执行后续所有动作能获得的长期累积期望回报。无限折扣累积回报定义为取数学期望得到状态价值原始表达式期望下标Eπ代表整个轨迹的动作采样、状态转移全部服从策略π与环境转移概率P。动作价值Qπ(s,a)物理含义在状态s主动选定动作a后续全程遵循策略π所能获得的长期期望累积回报。其原始期望定义为同理做回报递归拆分GtrγGt1代入期望并逐层展开概率求和选定动作a后环境按p(s′,r∣s,a)发生状态转移到达s′后再按策略π选择后续所有动作因此下一阶段的价值是状态价值Vπ(s′)。最终推导得到动作价值贝尔曼期望方程贝尔曼期望方程的核心应用场景是策略评估给定任意固定策略π迭代求解每一个状态对应的Vπ(s)或Qπ(s,a)量化该策略下智能体能拿到的长期回报数值以此判断策略优劣。3.最优动作价值Q∗(s,a)贝尔曼最优方程最优策略π∗贝尔曼期望方程只能评估已有策略无法自动优化策略而贝尔曼最优方程引入最大化算子max抛弃固定策略概率加权直接在每个状态、每个动作上选择能带来最大长期回报的决策求解全局最优价值函数与最优策略。最优动作价值Q∗(s,a)maxπQπ(s,a)代表在状态s执行动作a后后续全程采用最优策略能获得的最大长期累积回报。执行动作a后环境发生状态转移抵达s′后续直接选取最优动作对后续动作a′做最大化操作最终公式4.贝尔曼方程在强化学习算法中的实现步骤强化学习经典范式“策略迭代、值迭代、Q-learning、DQN”全部依托贝尔曼方程迭代更新下面逐个拆解每一步数学公式、执行逻辑、贝尔曼方程的嵌入位置。我们以比较熟悉的Q-learning算法为例进行说明。值迭代、策略迭代是有模型算法需要提前完整知晓环境转移概率p(s′,r∣s,a)而现实自动驾驶、游戏 AI 等场景无法获取环境精确转移模型此时采用无模型强化学习直接用环境交互采样样本拟合贝尔曼最优方程Q-learning 是代表算法。步骤1初始化构建Q表格Q(s,a)所有状态-动作对(s,a)初始值置0设定γ、学习率α、探索率ε初始化智能体起始状态s。步骤2动作采样以ε概率随机选取动作探索未知动作1−ε概率贪心选取当前Q值最大的动作步骤3环境交互采样单步样本在状态s执行动作a环境返回下一状态s′、即时奖励r、终止标记done。步骤4Q值单步更新无模型场景下没有环境转移概率直接用单条采样样本代替期望求和构造时序差分更新公式公式中rγmaxa′Q(s′,a′)是贝尔曼最优方程的单样本估计目标值Q(s,a)是旧估计值二者差值为时序差分误差乘以学习率α小幅修正Q表格。Q-learning不依赖环境模型直接用采样样本拟合最优动作贝尔曼方程时序差分更新的目标项完全来自Q∗(s,a)递归形式是贝尔曼方程从 “有模型理论公式” 落地到 “无模型工程实现” 的关键算法。5.贝尔曼期望方程的python实现固定策略每个状态永远向右走迭代求解Vπ(s)。对应数学公式import numpy as np # 1. 环境参数 GRID_SIZE 4 STATE_NUM GRID_SIZE * GRID_SIZE ACTIONS [(-1,0), (1,0), (0,-1), (0,1)] # 上、下、左、右 gamma 0.9 theta 1e-6 # 收敛阈值 terminal_state 15 # 坐标转状态编号 def pos2state(row, col): return row * GRID_SIZE col # 状态编号转坐标 def state2pos(s): row s // GRID_SIZE col s % GRID_SIZE return row, col # 环境转移函数确定性转移返回 (下一状态, 即时奖励) def env_step(s, a): if s terminal_state: return terminal_state, 0.0 r, c state2pos(s) dr, dc ACTIONS[a] nr max(0, min(r dr, GRID_SIZE-1)) nc max(0, min(c dc, GRID_SIZE-1)) s_next pos2state(nr, nc) reward 0.0 if s_next terminal_state else -1.0 return s_next, reward # ---------------------- # 固定策略所有状态都选「向右」动作索引3 # π(a|s)向右概率1其余动作0 # ---------------------- def policy_pi(s): pi np.zeros(4) pi[3] 1.0 return pi # 贝尔曼期望方程迭代求解 Vπ(s) def policy_evaluation(): V np.zeros(STATE_NUM) # 初始化状态价值 while True: delta 0.0 V_new np.zeros_like(V) for s in range(STATE_NUM): if s terminal_state: V_new[s] 0.0 continue pi_a policy_pi(s) v_sum 0.0 for a in range(4): prob_a pi_a[a] if prob_a 0: continue # 确定性环境 p1不用遍历概率分布 s_next, r env_step(s, a) v_sum prob_a * (r gamma * V[s_next]) V_new[s] v_sum delta max(delta, abs(V_new[s] - V[s])) V V_new if delta theta: break return V # 运行策略评估 V_pi policy_evaluation() print( 贝尔曼期望方程 | 固定策略状态价值 Vπ ) print(V_pi.reshape(GRID_SIZE, GRID_SIZE).round(2))基于最优贝尔曼方程def value_iteration(): V np.zeros(STATE_NUM) while True: delta 0.0 V_new np.zeros_like(V) for s in range(STATE_NUM): if s terminal_state: V_new[s] 0.0 continue max_q -np.inf # 遍历所有动作取最大值max_a for a in range(4): s_next, r env_step(s, a) q_val r gamma * V[s_next] if q_val max_q: max_q q_val V_new[s] max_q delta max(delta, abs(V_new[s] - V[s])) V V_new if delta theta: break return V V_star value_iteration() print(\n 贝尔曼最优方程 | 最优状态价值 V* ) print(V_star.reshape(GRID_SIZE, GRID_SIZE).round(2))最优动作价值贝尔曼方程def q_value_iteration(): Q np.zeros((STATE_NUM, 4)) while True: delta 0.0 Q_new np.zeros_like(Q) for s in range(STATE_NUM): if s terminal_state: Q_new[s, :] 0.0 continue for a in range(4): s_next, r env_step(s, a) # max_{a} Q(s,a) max_next_q np.max(Q[s_next, :]) Q_new[s,a] r gamma * max_next_q delta max(delta, abs(Q_new[s,a] - Q[s,a])) Q Q_new if delta theta: break return Q Q_star q_value_iteration() print(\n 最优动作价值Q*每个状态最优动作索引 ) best_action np.argmax(Q_star, axis1).reshape(GRID_SIZE, GRID_SIZE) act_map {0:↑,1:↓,2:←,3:→} for row in best_action: print([act_map[i] for i in row])无模型单步贝尔曼更新不用环境转移概率用交互样本做贝尔曼目标更新def q_learning(episodes5000, lr0.1, eps0.1): Q np.zeros((STATE_NUM, 4)) for ep in range(episodes): s 0 # 每轮从起点0出发 while s ! terminal_state: # ε-greedy选动作 if np.random.rand() eps: a np.random.randint(4) else: a np.argmax(Q[s]) s_next, r env_step(s, a) # 贝尔曼时序差分更新 td_target r gamma * np.max(Q[s_next]) td_error td_target - Q[s,a] Q[s,a] lr * td_error s s_next return Q Q_learn q_learning() print(\n Q-learning收敛后最优动作策略 ) best_act_learn np.argmax(Q_learn, axis1).reshape(GRID_SIZE, GRID_SIZE) for row in best_act_learn: print([act_map[i] for i in row])

手把手教你理解DreamFusion：如何用2D扩散模型‘脑补’出3D物体？

从文字到立体：揭秘DreamFusion如何用2D想象力雕刻3D世界想象一下，当你输入"一只戴着牛仔帽的柴犬"这样简单的文字描述，AI就能自动生成一个可以360度旋转、带有逼真光影效果的3D模型——这听起来像是科幻电影里的场景，但…

2026/6/12 12:52:51 阅读更多

3步快速上手！GanttProject：免费开源的项目管理利器

3步快速上手！GanttProject：免费开源的项目管理利器【免费下载链接】ganttproject Official GanttProject repository. 项目地址: https://gitcode.com/gh_mirrors/ga/ganttproject 还在为复杂的项目管理软件头疼吗？面对昂贵的商业软件…

2026/6/12 12:52:31 阅读更多

DownKyi：解锁B站视频下载的5个专业级技巧，让离线观看更简单

DownKyi：解锁B站视频下载的5个专业级技巧，让离线观看更简单【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取…

2026/6/12 12:50:29 阅读更多

《魔域》辅助开发笔记：如何安全高效地遍历与读取魔石商店物品数据

《魔域》魔石商店数据自动化处理实战指南在《魔域》这类经典MMORPG中，魔石商店作为核心交易系统，其商品数据的实时获取对于物价监控、自动采购等高级功能实现至关重要。本文将系统性地介绍如何构建一个稳定、高效的魔石商店数据处理模块，涵盖…

2026/6/12 14:23:09 阅读更多

LQFP封装即用包：32到256脚全规格Altium兼容PCB封装文件+标准尺寸图

本文还有配套的精品资源，点击获取简介：这个LQFP封装资源包直接提供32、48、64、100、128、144、160、176、208、256共10种引脚数的完整PCB封装文件，每种都包含JEDEC标准PDF尺寸图（如32-lqfp-0707-an.pdf、64-lqfp-1414-an.pdf…

2026/6/12 14:22:29 阅读更多

Delphi7与BCB4-6兼容的视频采集控件源码包（含多摄像头支持、实时帧捕获、画质参数调节）

本文还有配套的精品资源，点击获取简介：一套专为旧版Borland开发环境设计的视频功能集成方案，直接支持Delphi 7和C Builder 4/5/6，无需升级IDE即可调用完整视频采集能力。内含7个预编译BPL组件文件和4个DCP包，覆盖不…

2026/6/12 14:20:57 阅读更多

pyasc版本：实现两个张量的逐元素加法

前言一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法，在CPU上跑得挺慢，想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑，但原生Ascend C的C编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Asc…

2026/6/12 14:19:33 阅读更多

论文提速的终极秘籍！智能AI写作辅助软件，思路秒出超省心

作为一名刚完成毕业论文的过来人，我太懂写论文的痛苦了 —— 选题迷茫、文献浩如烟海、框架混乱、熬夜改稿、查重降重反复折腾... 直到我发现了这套 AI 写作工具组合，简直是论文写作的 "开挂神器"，效率直接拉满，原本 3 …

2026/6/12 14:19:33 阅读更多

告别电脑噪音烦恼：FanControl如何让你成为风扇控制大师？

告别电脑噪音烦恼：FanControl如何让你成为风扇控制大师？ 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHu…

2026/6/12 14:18:11 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/12 10:26:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/12 10:00:48 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/12 10:00:17 阅读更多

相关文章