别再死磕理论了！用Python手搓一个蒙特卡洛强化学习小游戏（附完整代码）

发布时间：2026/5/25 23:57:33

用Python实战蒙特卡洛强化学习从零构建Grid World游戏在咖啡厅里我盯着笔记本屏幕上密密麻麻的强化学习公式发呆。贝尔曼方程、价值迭代、策略评估...这些概念在论文里看起来很美但当我试图用代码实现时却总感觉少了点什么。直到有一天我决定抛开理论直接用Python构建一个简单的网格世界环境并实现蒙特卡洛强化学习算法——那一刻所有抽象的概念突然变得清晰可见。1. 环境搭建创建你的第一个Grid World我们先从构建游戏环境开始。Grid World是强化学习的经典沙盒一个智能体在网格中移动寻找目标位置同时避开障碍物。import numpy as np import pygame import time class GridWorld: def __init__(self, size5): self.size size self.grid np.zeros((size, size)) self.agent_pos [0, 0] self.goal_pos [size-1, size-1] self.obstacles [[1, 1], [2, 3], [3, 1]] # 障碍物位置 self.actions [up, down, left, right] # 初始化Pygame pygame.init() self.cell_size 80 self.screen pygame.display.set_mode( (size * self.cell_size, size * self.cell_size)) pygame.display.set_caption(Grid World - 蒙特卡洛强化学习)这个基础环境包含5x5的网格世界智能体起始位置(0,0)目标位置(4,4)三个固定障碍物四种基本移动动作关键参数说明参数类型描述默认值sizeint网格边长5cell_sizeint像素绘制尺寸80obstacleslist障碍物坐标列表[[1,1],[2,3],[3,1]]提示可以通过调整size参数轻松扩展网格尺寸但要注意计算复杂度会呈平方增长2. 游戏逻辑与可视化实现接下来我们添加环境的核心逻辑和可视化部分def reset(self): 重置环境到初始状态 self.agent_pos [0, 0] return self.agent_pos.copy() def step(self, action): 执行动作并返回(next_state, reward, done) x, y self.agent_pos # 动作执行 if action up and x 0: x - 1 elif action down and x self.size - 1: x 1 elif action left and y 0: y - 1 elif action right and y self.size - 1: y 1 # 碰撞检测 new_pos [x, y] if new_pos in self.obstacles: reward -5 # 碰到障碍物惩罚 done False elif new_pos self.goal_pos: reward 10 # 到达目标奖励 done True else: reward -1 # 每步小惩罚鼓励快速到达 done False self.agent_pos new_pos return new_pos.copy(), reward, done def render(self): 可视化当前状态 self.screen.fill((255, 255, 255)) # 绘制网格线 for i in range(self.size 1): pygame.draw.line(self.screen, (200, 200, 200), (0, i * self.cell_size), (self.size * self.cell_size, i * self.cell_size)) pygame.draw.line(self.screen, (200, 200, 200), (i * self.cell_size, 0), (i * self.cell_size, self.size * self.cell_size)) # 绘制障碍物 for obs in self.obstacles: pygame.draw.rect(self.screen, (139, 69, 19), (obs[1] * self.cell_size, obs[0] * self.cell_size, self.cell_size, self.cell_size)) # 绘制目标 pygame.draw.circle(self.screen, (0, 255, 0), (int((self.goal_pos[1] 0.5) * self.cell_size), int((self.goal_pos[0] 0.5) * self.cell_size)), int(self.cell_size * 0.3)) # 绘制智能体 pygame.draw.circle(self.screen, (255, 0, 0), (int((self.agent_pos[1] 0.5) * self.cell_size), int((self.agent_pos[0] 0.5) * self.cell_size)), int(self.cell_size * 0.2)) pygame.display.flip()这个实现有几个值得注意的设计选择奖励机制采用稀疏奖励设置只有到达目标和碰到障碍物时有显著奖励/惩罚步数惩罚每步小惩罚(-1)鼓励智能体尽快找到目标边界处理智能体不能移出网格边界可视化使用不同颜色区分环境元素3. 蒙特卡洛强化学习算法实现现在来到核心部分——蒙特卡洛强化学习算法的实现。我们将采用首次访问型MC预测结合ε-greedy策略改进。class MonteCarloAgent: def __init__(self, actions, epsilon0.1, gamma0.9): self.actions actions self.epsilon epsilon # 探索概率 self.gamma gamma # 折扣因子 self.Q {} # 动作价值函数 self.returns {} # 累计回报 self.policy {} # 当前策略 def get_action(self, state): 基于当前策略选择动作 state_key tuple(state) if state_key not in self.policy: # 新状态初始化为随机策略 self.policy[state_key] np.random.choice(self.actions) # ε-greedy策略 if np.random.random() self.epsilon: return np.random.choice(self.actions) else: return self.policy[state_key] def update_policy(self, episode): 基于完整episode更新策略 states, actions, rewards zip(*episode) G 0 # 累计回报 # 反向遍历episode for t in range(len(episode)-1, -1, -1): state, action, _ episode[t] G self.gamma * G rewards[t] state_action (tuple(state), action) # 首次访问型MC if state_action not in [(tuple(episode[i][0]), episode[i][1]) for i in range(t)]: if state_action not in self.returns: self.returns[state_action] [] self.returns[state_action].append(G) self.Q[state_action] np.mean(self.returns[state_action]) # 更新策略为当前最优动作 state_key tuple(state) max_q -float(inf) for a in self.actions: if (state_key, a) in self.Q and self.Q[(state_key, a)] max_q: max_q self.Q[(state_key, a)] best_action a self.policy[state_key] best_action算法关键点解析ε-greedy策略以1-ε概率选择当前最优动作以ε概率随机探索其他动作平衡探索(exploration)与利用(exploitation)首次访问型MC只考虑状态-动作对的第一次出现计算从该点开始的累计回报相比每次访问型方差更小策略改进基于新的Q值更新策略总是选择当前估计价值最高的动作保留ε概率的随机探索注意折扣因子γ控制未来奖励的重要性通常设置在0.9-0.99之间。γ越小智能体越注重即时奖励。4. 训练流程与效果展示最后我们整合训练流程并观察学习效果def train_agent(episodes1000, render_every100): env GridWorld() agent MonteCarloAgent(env.actions) for episode in range(episodes): state env.reset() done False episode_history [] # 生成episode while not done: action agent.get_action(state) next_state, reward, done env.step(action) episode_history.append((state, action, reward)) state next_state # 定期渲染 if episode % render_every 0: env.render() time.sleep(0.1) # 策略更新 agent.update_policy(episode_history) # 打印进度 if episode % 100 0: print(fEpisode {episode}, Steps: {len(episode_history)}) return agent # 启动训练 trained_agent train_agent()训练过程典型输出Episode 0, Steps: 50 Episode 100, Steps: 28 Episode 200, Steps: 12 Episode 300, Steps: 8 Episode 400, Steps: 8 ... Episode 900, Steps: 6可以看到随着训练进行智能体找到目标的步数明显减少。在可视化窗口中你能观察到智能体从最初的随机游走到最终学会避开障碍物、直奔目标的有趣过程。性能优化技巧动态ε调整随着训练进行逐渐减小ε值agent.epsilon max(0.01, 0.1 * (1 - episode/episodes))经验回放存储历史episode片段重复利用from collections import deque memory deque(maxlen1000) # 存储最近的1000个transition并行采样同时运行多个环境实例加速数据收集在实现这个项目时最让我惊讶的是看到智能体从完全随机行为逐渐发展出有目的性的策略。大约在300次episode后它已经能稳定找到避开障碍物的路径。不过我也发现如果ε值降得太快智能体可能会陷入局部最优——这提醒我们探索与利用平衡的重要性。

DeepSeek幻觉问题深度复盘（2023–2024真实故障库首发）：从token级偏差到语义坍塌的全链路溯源

更多请点击： https://codechina.net 第一章：DeepSeek幻觉问题深度复盘（2023–2024真实故障库首发）：从token级偏差到语义坍塌的全链路溯源 DeepSeek系列模型在2023年Q3至2024年Q2期间暴露出系统性幻觉现象，…

2026/5/25 23:57:33 阅读更多

【Qwen3.6】关键技术：线性注意力（Linear Attention/DeltaNet）和标准多头注意力（Standard Attention）混合

官方材料 https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/blob/main/README.md 分析一款非常前沿的混合架构大模型， Qwen3.6-35B-A3B 下一代 Qwen 模型。这个模型的核心创新在于它不是纯粹的 Transformer，而是将两种不同的序列建模技术——线性注意…

2026/5/25 23:57:33 阅读更多

MySQL 死锁产生原因与避免

我刚工作的时候，有个批量转账的需求：要从 A 账户转钱给 B 账户，同时从 B 账户转钱给 A 账户。结果上线后频繁死锁，用户投诉电话被打爆。今天咱们就来聊聊 MySQL 死锁的产生原因与避免，看完这篇，你就能设计…

2026/5/25 23:57:33 阅读更多

机器学习与强化学习如何革新黑盒优化：从代理模型到动态策略

1. 项目概述：当黑盒优化遇见机器学习与强化学习在工程、科学和工业界的许多前沿领域，我们常常会遇到一类令人头疼的优化问题：你有一个系统，比如一个复杂的物理仿真模型、一个需要调参的深度神经网络，或者一个昂贵的化学…

2026/5/26 0:43:59 阅读更多

深入解析：douyin-downloader的工作机制与实用价值

深入解析：douyin-downloader的工作机制与实用价值【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …

2026/5/26 0:43:38 阅读更多

拼多多上架充电电流查看器

这东西别人需求不是很强烈，我觉得，所以5块钱/月好了

2026/5/26 0:43:38 阅读更多

APP权限系统----收费系统

1 管理员---------就是我2 VIP----比较全面的3 独立功能开通--------即使VIP也需要再次付费，或者独立购买

2026/5/26 0:43:38 阅读更多

GitLab External Wiki代理权限绕过漏洞深度解析

1. 这个漏洞不是“修个补丁”就能完事的——它暴露的是 GitLab 权限模型里一个被长期忽视的逻辑断层GitLab 安全漏洞 CVE-2025-2614，光看编号容易误以为是又一个常规的越权或 XSS 类型漏洞。但我在实际复现和审计过程中发现，它根本不是配置疏漏或代码拼写…

2026/5/26 0:42:16 阅读更多

如何在5分钟内让Windows老游戏焕发新生：DDrawCompat终极兼容性解决方案

如何在5分钟内让Windows老游戏焕发新生：DDrawCompat终极兼容性解决方案【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_m…

2026/5/26 0:41:56 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章

DeepSeek幻觉问题深度复盘（2023–2024真实故障库首发）：从token级偏差到语义坍塌的全链路溯源

【Qwen3.6】关键技术：线性注意力（Linear Attention/DeltaNet）和标准多头注意力（Standard Attention）混合

MySQL 死锁产生原因与避免

机器学习与强化学习如何革新黑盒优化：从代理模型到动态策略

深入解析：douyin-downloader的工作机制与实用价值

拼多多上架充电电流查看器

APP权限系统----收费系统

GitLab External Wiki代理权限绕过漏洞深度解析

如何在5分钟内让Windows老游戏焕发新生：DDrawCompat终极兼容性解决方案

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

ssm高校普法系统（10101）

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥