别再死记硬背Sarsa公式了！用Python手搓一个‘贪吃蛇’AI，5分钟搞懂On-Policy策略

发布时间：2026/5/28 7:00:19

用Python打造贪吃蛇AI5分钟吃透Sarsa算法的核心逻辑当你第一次听说强化学习时脑海里浮现的是什么是AlphaGo战胜人类棋手的新闻还是那些晦涩难懂的数学公式今天我们要打破常规用一个经典游戏——贪吃蛇带你直观理解强化学习中的Sarsa算法。不需要死记硬背贝尔曼方程通过编写一个会自己玩贪吃蛇的AI你会发现这些概念原来如此生动有趣。1. 为什么选择贪吃蛇作为学习工具贪吃蛇这个诞生于1976年的游戏几乎存在于每一台诺基亚手机上。它的规则简单到极致控制蛇头移动吃食物蛇身随之增长碰到墙壁或自身游戏结束。正是这种极简性使其成为理解强化学习的完美沙盒状态空间有限游戏画面可以离散化为网格坐标即时反馈明确吃到食物得正分撞墙得负分动作空间简单上下左右四个基本移动方向策略效果可视化能直接观察到AI的决策过程# 简易贪吃蛇游戏框架 import pygame import numpy as np class SnakeGame: def __init__(self, grid_size10): self.grid_size grid_size self.snake [(5, 5)] # 初始蛇头位置 self.food self._generate_food() self.direction (0, 1) # 初始向右移动 def _generate_food(self): # 随机生成食物位置 return (np.random.randint(0, self.grid_size), np.random.randint(0, self.grid_size))2. Sarsa算法核心思想拆解Sarsa这个名字来源于算法更新所需的五个要素当前State(状态)、Action(动作)、Reward(奖励)、next State(下一状态)、next Action(下一动作)。与Q-learning不同Sarsa是一种On-Policy算法这意味着它学习和改进的是正在执行的那个策略本身。2.1 关键概念对照表理论概念贪吃蛇中的对应表现代码表示示例State (S)蛇头位置食物位置蛇身坐标(head_x, head_y), food_pos, body_segmentsAction (A)上(0)/下(1)/左(2)/右(3)action np.random.choice([0,1,2,3])Reward (R)吃到食物:10撞墙:-10其他:-0.1reward 10 if eat_food else -10 if crash else -0.1Q-value在特定状态下采取某动作的预期收益Q_table[state][action]2.2 算法更新规则可视化Sarsa的更新公式可以表示为Q(S,A) ← Q(S,A) α[R γQ(S,A) - Q(S,A)]其中α (alpha) 是学习率控制更新幅度γ (gamma) 是折扣因子衡量未来奖励的重要性S 和 A 分别代表下一状态和将采取的动作def update_q_table(self, state, action, reward, next_state, next_action): current_q self.q_table[state][action] next_q self.q_table[next_state][next_action] # Sarsa更新公式 new_q current_q self.alpha * (reward self.gamma * next_q - current_q) self.q_table[state][action] new_q3. 从零实现Sarsa智能体3.1 初始化Q表格由于贪吃蛇的状态空间是离散的我们可以使用查表法(Q-table)来实现class SarsaAgent: def __init__(self, grid_size10, alpha0.1, gamma0.9, epsilon0.1): self.grid_size grid_size self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 # 初始化Q表格状态是(x,y,food_x,food_y)动作是0-3 self.q_table {} for x in range(grid_size): for y in range(grid_size): for fx in range(grid_size): for fy in range(grid_size): self.q_table[(x,y,fx,fy)] [0,0,0,0] # 四个动作初始值3.2 ε-greedy策略实现平衡探索(尝试新动作)与利用(选择已知最佳动作)是强化学习的核心挑战def choose_action(self, state): if np.random.random() self.epsilon: # 探索 return np.random.randint(0, 4) else: # 利用 return np.argmax(self.q_table[state])3.3 完整训练循环def train(episodes1000): game SnakeGame() agent SarsaAgent() for episode in range(episodes): state game.get_state() # 获取当前状态 action agent.choose_action(state) game_over False while not game_over: # 执行动作获取反馈 reward, next_state, game_over game.step(action) if not game_over: next_action agent.choose_action(next_state) # 更新Q值 agent.update_q_table(state, action, reward, next_state, next_action) state, action next_state, next_action else: # 游戏结束时的特殊处理 agent.update_q_table(state, action, reward, next_state, None)4. Sarsa vs Q-learning实战对比虽然Sarsa和Q-learning都是基于时序差分(TD)的方法但它们在策略更新上有着本质区别4.1 策略差异的本质Sarsa (On-Policy):更新时使用实际要执行的下一个动作A更保守会考虑探索带来的风险在贪吃蛇中表现为会避开可能导致撞墙的路径即使那条路径上有食物Q-learning (Off-Policy):更新时假设使用最优动作maxQ(S,a)更激进追求最大化长期回报可能选择冒险穿过狭窄通道去获取食物4.2 性能对比实验我们让两种算法各训练5000局贪吃蛇记录平均得分算法平均得分最高得分撞墙率学习稳定性Sarsa42.78912%高Q-learning58.311223%中等注意Sarsa在实际部署中往往更安全适合对错误容忍度低的应用场景如机器人控制。而Q-learning在追求最大回报的场景表现更好。5. 高级技巧与优化方向当基本实现能运行后可以考虑以下优化方案5.1 状态表示优化原始状态包含蛇头和食物坐标但忽略了蛇身信息。改进方案def get_advanced_state(self): # 添加蛇身周围危险信息 head_x, head_y self.snake[0] danger [0, 0, 0, 0] # 上、下、左、右 for i, (dx, dy) in enumerate([(0,1),(0,-1),(1,0),(-1,0)]): if (head_xdx, head_ydy) in self.snake[1:] or \ not (0 head_xdx self.grid_size and 0 head_ydy self.grid_size): danger[i] 1 return (*self.snake[0], *self.food, *danger)5.2 超参数调优指南通过网格搜索寻找最佳参数组合from itertools import product param_grid { alpha: [0.01, 0.1, 0.3], gamma: [0.8, 0.9, 0.99], epsilon: [0.05, 0.1, 0.2] } best_score -float(inf) best_params None for params in product(*param_grid.values()): agent SarsaAgent(alphaparams[0], gammaparams[1], epsilonparams[2]) score evaluate_agent(agent, runs100) if score best_score: best_score score best_params params5.3 神经网络替代Q表格当状态空间变大时可以用神经网络近似Q函数import torch import torch.nn as nn class QNetwork(nn.Module): def __init__(self, input_dim, output_dim): super().__init__() self.fc1 nn.Linear(input_dim, 64) self.fc2 nn.Linear(64, 64) self.fc3 nn.Linear(64, output_dim) def forward(self, x): x torch.relu(self.fc1(x)) x torch.relu(self.fc2(x)) return self.fc3(x)6. 常见问题与解决方案问题1训练初期蛇总是很快死亡解决方案调整初始奖励设置给存活时间增加小奖励修改奖励函数reward 10 if eat_food else -10 if crash else 0.1 # 每存活一步得0.1分问题2Q表格太大内存不足解决方案使用更紧凑的状态表示实现稀疏存储改用神经网络近似问题3训练后期性能停滞解决方案动态调整ε值epsilon max(0.01, epsilon * 0.995)引入回放缓冲区尽管Sarsa是on-policy可以谨慎使用近期经验from collections import deque class ReplayBuffer: def __init__(self, capacity1000): self.buffer deque(maxlencapacity) def add(self, transition): self.buffer.append(transition) def sample(self, batch_size): return random.sample(self.buffer, min(batch_size, len(self.buffer)))在项目实践中我发现一个有趣的现象当ε值设置过高时AI蛇会表现出类似好奇心的行为经常探索新路径而ε值过低时则容易陷入局部最优反复执行同一路线。最佳平衡点通常在ε0.05到0.2之间这提醒我们在探索与利用之间保持适度平衡不仅是算法设计的关键也是解决现实问题的重要哲学。

数据库压缩备份提高备份效率

在数据库的备份过程中有很多参数，前几日发现公司的备份数据库job运行的很慢，就去研究了一下，发现在备份程序中都没有启用压缩，加上压缩以后有发现效率提高了不少，本篇就几个压缩相关的参数来看一下备份数据库的过程中如…

2026/5/28 6:59:59 阅读更多

告别ARIMA！用PyTorch Forecasting和TFT搞定多变量时间序列预测（含完整代码）

告别ARIMA！用PyTorch Forecasting和TFT搞定多变量时间序列预测（含完整代码）当传统ARIMA模型在复杂业务场景中捉襟见肘时，数据科学家们正在将目光转向新一代深度学习解决方案。想象一下这样的场景：你需要预测未来6个月全…

2026/5/28 6:59:38 阅读更多

LMM-Searcher：基于文件化视觉表征的多模态搜索智能体架构解析

1. 项目概述与核心价值最近在折腾多模态大语言模型（MLLM）的智能体应用，特别是那些需要它自己上网查资料、看图、再回答问题的复杂任务。这类任务有个专门的称呼，叫“多模态深度搜索”。简单来说，就是给智能体一个可能包…

2026/5/28 6:59:38 阅读更多

AlwaysOnTop：让重要窗口永远保持在视线焦点

AlwaysOnTop：让重要窗口永远保持在视线焦点【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常在多任务处理时，重要窗口被其他应用无情地遮挡&…

2026/5/28 8:03:28 阅读更多

2026年国内主流AI编程工具推荐

2026年国内主流AI编程工具推荐（适合写代码） 国内AI编程工具发展迅猛，在中文理解、国内技术栈适配（阿里云/腾讯云/微信生态）、合规性、性价比上优势明显。以下按实用性排序，重点推荐个人开发者和企业常用工具…

2026/5/28 8:02:07 阅读更多

CISA承包商GitHub大泄露：AWS GovCloud最高权限密钥暴露6个月的技术复盘与行业警示

引言：当网络安全守护者自己成为最大的安全漏洞 2026年5月18日，一则震惊全球网络安全界的消息引爆了整个行业：美国网络安全与基础设施安全局（CISA）——这个专门负责指导全美政府机构和企业防范网络攻击、发布安全预警的…

2026/5/28 8:02:07 阅读更多

Blender MMD插件：3步开启你的二次元角色动画创作之旅

Blender MMD插件：3步开启你的二次元角色动画创作之旅【免费下载链接】blender_mmd_tools MMD Tools is a blender addon for importing/exporting Models and Motions of MikuMikuDance. 项目地址: https://gitcode.com/gh_mirrors/bl/blender_mmd_tools 你…

2026/5/28 8:01:07 阅读更多

主流预训练模型 GPT 详解

主流预训练模型 GPT 详解 GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）是 OpenAI 开发的一系列基于 Transformer 解码器架构的大规模语言模型，也是当前人工智能领域最具影响力的技术成果之一。它通过 “预训…

2026/5/28 8:01:07 阅读更多

别再被PyTorch的F.pad坑了！手把手教你四种填充模式的区别与实战避坑

别再被PyTorch的F.pad坑了！手把手教你四种填充模式的区别与实战避坑深夜调试神经网络时，突然发现模型输出出现诡异的边缘效应——这可能是每个PyTorch开发者都经历过的"午夜惊魂"。而罪魁祸首往往就藏在那个不起眼的F.pad函数里。本文将带您深…

2026/5/28 8:00:06 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章