别再死记硬背Sarsa公式了！用Python手搓一个‘贪吃蛇’AI，带你直观理解On-Policy与Q-learning的区别

发布时间：2026/6/29 17:23:00

用Python构建贪吃蛇AI从零理解Sarsa与Q-learning的本质差异当我在大学第一次接触强化学习时教授在黑板上写满了贝尔曼方程的推导过程。那些复杂的数学符号让我昏昏欲睡直到我决定用代码把它们敲出来——在构建贪吃蛇AI的过程中那些抽象概念突然变得鲜活起来。本文将带你用Python重现这个顿悟时刻通过游戏开发理解On-Policy与Off-Policy的核心区别。1. 环境搭建会咬自己尾巴的Python贪吃蛇我们先从构建游戏环境开始。使用PyGame库可以快速创建可视化界面但为了聚焦算法本质我推荐更轻量级的pygame-zero库。以下是环境类的核心结构class SnakeGame: def __init__(self, grid_size10): self.grid_size grid_size self.reset() def reset(self): self.snake [(5, 5)] # 初始蛇头位置 self.direction (0, 1) # 初始移动方向 self.food self._generate_food() self.done False self.score 0 def _generate_food(self): 在非蛇身位置随机生成食物 available [(x, y) for x in range(self.grid_size) for y in range(self.grid_size) if (x, y) not in self.snake] return random.choice(available)关键状态特征设计直接影响AI学习效率相对食物方向蛇头与食物的角度关系8个方位危险检测蛇头前方/左右各一格是否接近墙壁或自身移动方向当前行进方向的向量表示提示状态设计要兼顾信息完备性和维度简洁性。过于复杂的特征会显著增加训练难度。2. 算法实现当Sarsa遇见Q-learning2.1 Sarsa的保守主义哲学Sarsa得名于其更新所需的五元组(State, Action, Reward, next State, next Action)。它的核心特点是言行一致——用实际执行的下一步动作来更新当前策略。这种On-Policy特性使其行为相对保守def sarsa_update(self, state, action, reward, next_state, next_action, alpha0.1, gamma0.9): current_q self.q_table.get((state, action), 0) next_q self.q_table.get((next_state, next_action), 0) # 关键区别使用实际采取的next_action计算TD目标 new_q current_q alpha * (reward gamma * next_q - current_q) self.q_table[(state, action)] new_q在贪吃蛇游戏中这种保守性表现为遇到危险区域时会提前转向更倾向于保持现有安全路径探索新路线时更加谨慎2.2 Q-learning的冒险家精神相比之下Q-learning是典型的Off-Policy算法它总是假设下一步会采取最优动作而不论实际策略如何def q_learning_update(self, state, action, reward, next_state, alpha0.1, gamma0.9): current_q self.q_table.get((state, action), 0) # 关键区别选择最大Q值的动作不考虑实际策略 max_next_q max([self.q_table.get((next_state, a), 0) for a in self.possible_actions]) new_q current_q alpha * (reward gamma * max_next_q - current_q) self.q_table[(state, action)] new_q这种特性带来的行为模式更愿意冒险穿过狭窄通道对短期危险的反应较慢最终策略通常更激进高效3. 对比实验当算法在游戏中现形我们在相同初始条件下训练两个算法各5000局记录关键指标指标SarsaQ-learning平均存活步数152±28138±35最大得分4852撞墙概率12%23%自噬概率9%17%典型场景对比狭窄通道穿越Sarsa会评估通过风险可能选择绕路Q-learning常选择直接穿越成功率约65%食物追逐策略Sarsa倾向于保持安全距离Q-learning常采取最短路径即使要贴近蛇身探索行为Sarsa的ε-greedy探索更保守Q-learning在探索阶段更可能尝试危险动作4. 可视化分析策略差异的本质通过绘制两种算法训练过程中的Q值变化曲线我们可以发现def plot_learning_curve(sarsa_scores, q_scores, window100): plt.figure(figsize(10,6)) plt.plot(np.convolve(sarsa_scores, np.ones(window)/window, modevalid), labelSarsa) plt.plot(np.convolve(q_scores, np.ones(window)/window, modevalid), labelQ-learning) plt.xlabel(Episode) plt.ylabel(Average Score) plt.legend()关键观察点训练初期Q-learning得分波动更大验证其冒险特性中期阶段Sarsa稳定性优势显现收敛后期Q-learning通常能获得更高上限分注意在小型离散状态空间中表格型方法效果良好。但对于更复杂环境需要考虑神经网络近似Q函数。5. 进阶思考从游戏到现实的算法选择在实际项目中选择算法时需要权衡以下因素Sarsa适用场景错误决策代价高昂如医疗、金融需要平稳渐进的学习过程环境动态性较强的场景Q-learning优势场景允许一定风险换取更高回报状态空间离散且维度适中需要快速获得可行解的场景我在开发仓库机器人路径规划系统时就遇到过类似选择。最终对运输贵重物品的机器人采用Sarsa变体而对普通物流机器人使用Q-learning取得了良好平衡。

Qt布局管理器QHBoxLayout的7个高级技巧：从居中对齐到响应式边距设置

Qt布局管理器QHBoxLayout的7个高级技巧：从居中对齐到响应式边距设置在Qt界面开发中，QHBoxLayout作为最常用的水平布局管理器之一，其基础用法往往被开发者快速掌握。但当我们需要打造专业级应用界面时，仅满足于控件的简单排列远远不…

2026/6/26 1:13:07 阅读更多

隧道爆破振动数据降噪工具包：CEEMDAN自适应分解+小波包阈值精修

本文还有配套的精品资源，点击获取简介：提供一套开箱即用的MATLAB实现方案，专为处理隧道现场采集的强噪声爆破振动信号设计。输入单通道时程数据后，先运行ceemdan.m完成自适应信号分解，生成多个本征模态分量&#x…

2026/6/29 3:20:31 阅读更多

从理论到代码：手把手拆解KDL库的LM运动学逆解，看懂每一行迭代在做什么

从理论到代码：手把手拆解KDL库的LM运动学逆解，看懂每一行迭代在做什么在机器人运动控制领域，逆运动学求解一直是个既基础又关键的问题。当我们想让机械臂末端到达某个特定位置和姿态时，如何计算出各个关节应该转动的角度&#xff…

2026/6/29 2:27:07 阅读更多

阿里云盘Refresh Token获取终极指南：三步扫码解锁云盘自动化能力

阿里云盘Refresh Token获取终极指南：三步扫码解锁云盘自动化能力【免费下载链接】aliyundriver-refresh-token QR Code扫码获取阿里云盘refresh token For Web 项目地址: https://gitcode.com/gh_mirrors/al/aliyundriver-refresh-token 阿里云盘Refresh To…

2026/6/29 21:47:28 阅读更多

百度文库文档免费获取工具：127行代码实现高效自动化解决方案

百度文库文档免费获取工具：127行代码实现高效自动化解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 还在为百度文库的付费文档而烦恼吗？面对心仪的学习资料、工作模…

2026/6/29 21:47:07 阅读更多

零基础 Vibe Coding 教程 AI 编程的完整流程 33-36

零基础 Vibe Coding 教程 AI 编程的完整流程 33-36 一、参考资料【零基础Vibe Coding教程，vibecoding实战，Claude CodeCodexCursor】 https://www.bilibili.com/video/BV1RPET6tEp2/?p33&share_sourcecopy_web&vd_source855891859b2dc554eace9…

2026/6/29 21:46:45 阅读更多

Python异步编程asyncio深入解析

Python异步编程asyncio深入解析在当今高并发的网络应用开发中，异步编程已成为提升性能的关键技术。Python通过asyncio模块提供了原生的异步支持，允许开发者以更高效的方式处理I/O密集型任务。本文将深入解析asyncio的核心机制，帮助开发者掌…

2026/6/29 21:46:00 阅读更多

如何高效构建个人MOOC知识库：3步掌握离线学习技巧

如何高效构建个人MOOC知识库：3步掌握离线学习技巧【免费下载链接】MoocDownloader An MOOC downloader implemented by .NET. 一枚由 .NET 实现的 MOOC 下载器. 项目地址: https://gitcode.com/gh_mirrors/mo/MoocDownloader 你是否曾经遇到过这样的情况&am…

2026/6/29 21:46:00 阅读更多

ChatGPT API费用计算：为什么你看到的$0.01/1K tokens不是真实成本？揭秘tokenization差异、region路由溢价、并发QPS阶梯计价3重隐藏变量

更多请点击： https://kaifayun.com 第一章：ChatGPT API费用计算的全局认知误区许多开发者在接入 ChatGPT API 时，习惯性地将费用等同于“调用次数固定单价”，却忽略了 OpenAI 计费模型的核心粒度——**token 级别消耗**。这种…

2026/6/29 21:45:36 阅读更多

Java开发者转型安全开发：从代码审计到自动化工具实践

1. 转型背景与核心驱动力最近几年，身边不少做Java后端开发的朋友，都开始或多或少地关注起安全开发这个方向。我自己也是从写了七八年Java业务代码，一步步转向了安全领域，现在主要做代码审计和自动化安全工具开发。这个转变不是一时…

2026/6/29 0:00:05 阅读更多

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证” 开篇故事去年夏天，我正帮一家金融科技公司优化他们的TEE内Wasm沙箱。他们的核心业务是在Intel SGX enclave里运行用户提交的Wasm合约，用于实时交易验证。一天下午，运维突然报警：生产环境的enclave进程频繁崩…

2026/6/29 0:00:05 阅读更多

YAML函数动态解析：打造智能接口自动化测试用例

1. 项目概述：为什么YAML测试用例需要函数动态解析？在接口自动化测试的实践中，我们常常会面临一个核心矛盾：测试用例的可维护性与灵活性。早期的测试脚本，无论是用Python的unittest还是pytest，往往将测试数据…

2026/6/29 0:00:05 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/29 0:00:05 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/29 1:23:10 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/29 1:23:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/29 13:06:32 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/29 13:32:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/29 13:32:14 阅读更多

相关文章

Qt布局管理器QHBoxLayout的7个高级技巧：从居中对齐到响应式边距设置

隧道爆破振动数据降噪工具包：CEEMDAN自适应分解+小波包阈值精修

从理论到代码：手把手拆解KDL库的LM运动学逆解，看懂每一行迭代在做什么

阿里云盘Refresh Token获取终极指南：三步扫码解锁云盘自动化能力

百度文库文档免费获取工具：127行代码实现高效自动化解决方案

零基础 Vibe Coding 教程 AI 编程的完整流程 33-36

Python异步编程asyncio深入解析

如何高效构建个人MOOC知识库：3步掌握离线学习技巧

ChatGPT API费用计算：为什么你看到的$0.01/1K tokens不是真实成本？揭秘tokenization差异、region路由溢价、并发QPS阶梯计价3重隐藏变量

Java开发者转型安全开发：从代码审计到自动化工具实践

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

YAML函数动态解析：打造智能接口自动化测试用例

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因