别再死记硬背公式了！用Python手把手带你实现Model-based强化学习（附值迭代/策略迭代代码）

发布时间：2026/5/26 22:35:37

用Python实战Model-based强化学习从零实现值迭代与策略迭代在传统强化学习教材中数学公式和算法伪代码常常让学习者望而生畏。本文将通过Python代码实现一个完整的网格世界Grid World环境并逐步构建值迭代和策略迭代算法。我们将用NumPy处理矩阵运算Matplotlib可视化策略更新过程最后对比两种算法的收敛特性与适用场景。1. 搭建网格世界环境任何强化学习实践都需要一个明确的环境模型。我们首先构建一个5x5的网格世界import numpy as np import matplotlib.pyplot as plt class GridWorld: def __init__(self, size5): self.size size self.walls [(1,1), (2,3), (3,1)] # 障碍物坐标 self.goal (4,4) # 目标位置 self.trap (0,4) # 陷阱位置 self.actions [up, down, left, right] def step(self, state, action): x, y state if action up: x max(0, x-1) elif action down: x min(self.size-1, x1) elif action left: y max(0, y-1) elif action right: y min(self.size-1, y1) next_state (x, y) if next_state in self.walls: # 撞墙保持原位 next_state state if next_state self.goal: reward 10 done True elif next_state self.trap: reward -10 done True else: reward -1 # 每步有小惩罚 done False return next_state, reward, done这个环境包含以下关键元素状态空间5x5网格共25个状态动作空间上、下、左、右四个基本动作转移规则碰到边界或障碍物保持原位奖励机制到达目标点10掉入陷阱-10每移动一步-1鼓励高效路径2. 值迭代算法实现值迭代的核心思想是通过不断更新状态价值函数来逼近最优值函数。以下是完整实现def value_iteration(env, gamma0.9, theta1e-4): V np.zeros((env.size, env.size)) policy np.empty((env.size, env.size), dtypeobject) while True: delta 0 for i in range(env.size): for j in range(env.size): if (i,j) env.goal or (i,j) env.trap: continue v_old V[i,j] q_values [] for action in env.actions: (next_i, next_j), reward, _ env.step((i,j), action) q reward gamma * V[next_i, next_j] q_values.append(q) V[i,j] max(q_values) delta max(delta, abs(v_old - V[i,j])) if delta theta: break # 提取最优策略 for i in range(env.size): for j in range(env.size): if (i,j) env.goal: policy[i,j] goal elif (i,j) env.trap: policy[i,j] trap else: q_values [] for action in env.actions: (next_i, next_j), reward, _ env.step((i,j), action) q reward gamma * V[next_i, next_j] q_values.append(q) best_action env.actions[np.argmax(q_values)] policy[i,j] best_action return V, policy关键实现细节初始化价值函数V初始化为全零矩阵循环终止条件当最大价值变化小于阈值θ时停止状态价值更新使用贝尔曼最优方程更新每个状态价值策略提取在所有状态价值收敛后根据最优价值函数提取策略可视化收敛过程def plot_value_convergence(V_history): plt.figure(figsize(10,6)) for i in range(V_history[0].shape[0]): for j in range(V_history[0].shape[1]): plt.plot([v[i,j] for v in V_history], labelf({i},{j})) plt.xlabel(Iterations) plt.ylabel(State Value) plt.title(Value Iteration Convergence) plt.legend() plt.show()3. 策略迭代算法实现策略迭代包含策略评估和策略提升两个交替进行的阶段def policy_iteration(env, gamma0.9, theta1e-4): # 初始化随机策略 policy np.random.choice(env.actions, size(env.size, env.size)) policy[env.goal] goal policy[env.trap] trap V np.zeros((env.size, env.size)) while True: # 策略评估 while True: delta 0 for i in range(env.size): for j in range(env.size): if (i,j) env.goal or (i,j) env.trap: continue v_old V[i,j] action policy[i,j] (next_i, next_j), reward, _ env.step((i,j), action) V[i,j] reward gamma * V[next_i, next_j] delta max(delta, abs(v_old - V[i,j])) if delta theta: break # 策略提升 policy_stable True for i in range(env.size): for j in range(env.size): if (i,j) env.goal or (i,j) env.trap: continue old_action policy[i,j] q_values [] for action in env.actions: (next_i, next_j), reward, _ env.step((i,j), action) q reward gamma * V[next_i, next_j] q_values.append(q) best_action env.actions[np.argmax(q_values)] policy[i,j] best_action if old_action ! best_action: policy_stable False if policy_stable: break return V, policy算法特点对比特性值迭代策略迭代计算复杂度O(S²A) per iterationO(S³) per evaluation收敛速度线性收敛二次收敛内存需求只需存储V需存储V和π适用场景大状态空间小状态空间策略更新频率最后一次性提取每次迭代都更新4. 算法对比与实战技巧在实际运行中我们发现两种算法各有优劣值迭代特点每次迭代更新所有状态价值不需要完整策略评估适合状态空间较大的问题代码实现相对简单策略迭代特点策略评估阶段需要完全收敛通常需要更少的迭代次数适合可以承受每次迭代高计算量的场景策略质量在每次迭代都有提升实用调试技巧收敛监控# 在值迭代中添加 print(fIteration {k}, Delta: {delta:.4f}) # 在策略迭代中添加 print(fPolicy improved {np.sum(policy ! new_policy)} states)可视化工具def plot_policy(policy, env): arrows {up:↑, down:↓, left:←, right:→, goal:G, trap:X} grid np.empty((env.size, env.size), dtypeU2) for i in range(env.size): for j in range(env.size): grid[i,j] arrows[policy[i,j]] print(grid)超参数调优γ (折扣因子)通常在0.9-0.99之间θ (收敛阈值)一般设为1e-4到1e-6最大迭代次数防止无限循环实际项目中我通常会先用策略迭代在小规模问题上验证思路再对大规模问题采用值迭代。当状态空间特别大时可以考虑异步更新策略只随机选择部分状态进行更新。

量子特权信息学习框架：量子计算如何赋能经典机器学习模型

1. 量子特权信息学习框架：从理论到实践的深度解析在机器学习领域，一个长期存在的核心挑战是如何在数据有限或特征难以获取的情况下，构建出强大且泛化能力强的模型。特征工程，即从原始数据中提取或构造有意义的特征，往往…

2026/5/26 22:35:37 阅读更多

pypto：用Python直接写NPU算子，门槛有多低？

前言写昇腾NPU算子，传统路径是学Ascend C——C语法、达芬奇架构、内存管理、同步机制，门槛不低。很多算法工程师只是想快速验证一个想法，不想花几周时间学底层编程。 pypto是PTO（Process Tensor Operand）虚拟指令集…

2026/5/26 22:34:14 阅读更多

Jetson Orin到手后第一件事：安全修改Ubuntu 20.04默认用户名和密码（保姆级避坑流程）

Jetson Orin开箱安全指南：Ubuntu 20.04凭据修改全流程解析当你拆开Jetson Orin的包装盒，按下电源键看到Ubuntu 20.04的登录界面时，系统安全配置就应该成为你的首要任务。默认凭据就像是敞开的家门，任何人都可以随意进出。本文将带…

2026/5/26 22:33:13 阅读更多

OpenOOD脚本系统：100+脚本如何简化实验复现流程 [特殊字符]

OpenOOD脚本系统：100脚本如何简化实验复现流程 🚀 【免费下载链接】OpenOOD Benchmarking Generalized Out-of-Distribution Detection 项目地址: https://gitcode.com/gh_mirrors/op/OpenOOD 在机器学习研究领域，OpenOOD脚本系统为分…

2026/5/26 23:27:23 阅读更多

性能对比分析：DeBERTa-v3-large-zeroshot-v2.0 vs BART-large-mnli vs RoBERTa

性能对比分析：DeBERTa-v3-large-zeroshot-v2.0 vs BART-large-mnli vs RoBERTa 【免费下载链接】deberta_v3_large_zeroshot_v2.0 项目地址: https://ai.gitcode.com/hf_mirrors/PyTorch-NPU/deberta_v3_large_zeroshot_v2.0 🔥 三大零样本分类模…

2026/5/26 23:27:03 阅读更多

联邦学习应对非独立同分布数据：基于CVAE的隐私保护数据增强方案

1. 项目概述：当联邦学习遇上非独立同分布数据在网络安全领域，尤其是网络威胁情报的构建中，我们正面临一个日益严峻的挑战：数据孤岛。想象一下，一个大型跨国企业的不同区域分公司、或是电信运营商的不同省级网络&#x…

2026/5/26 23:26:21 阅读更多

告别Trace盲区：在CAPL脚本中为TCP函数添加Debug日志的实用技巧

告别Trace盲区：在CAPL脚本中为TCP函数添加Debug日志的实用技巧在汽车电子开发领域，CAPL脚本作为CANoe环境中的核心编程语言，其TCP通信功能的调试一直是工程师面临的痛点。当你的TCP连接莫名断开，数据收发出现异常时，官…

2026/5/26 23:24:38 阅读更多

Transformer与图像增强在医疗AI报告生成中的协同优化实践

1. 项目概述与核心价值作为一名长期耕耘在医学影像与自然语言处理交叉领域的从业者，我深知放射科医生撰写报告是一项极其耗时且需要高度专业知识的重复性劳动。每天面对海量的X光片，既要保证诊断的准确性，又要确保报告描述的详尽与规范&#…

2026/5/26 23:24:38 阅读更多

Windows虚拟光驱终极指南：开源免费的ISO文件挂载工具完整解析

Windows虚拟光驱终极指南：开源免费的ISO文件挂载工具完整解析【免费下载链接】WinCDEmu 项目地址: https://gitcode.com/gh_mirrors/wi/WinCDEmu 在数字时代，光盘镜像文件已成为软件分发、数据备份和内容存储的常用格式。然而，传统的…

2026/5/26 23:23:54 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章