Cliff Walking环境实战：用Python手把手教你实现Sarsa和Q-Learning（附完整代码）

发布时间：2026/5/24 6:17:16

Cliff Walking环境实战Python实现Sarsa与Q-Learning算法深度解析引言当强化学习遇见悬崖漫步想象你正站在一个4×12的网格世界起点右下角是诱人的目标点但中间却横亘着一道致命的悬崖。每走一步都会消耗体力奖励-1跌落悬崖将承受巨大痛苦奖励-100。这就是经典的Cliff Walking环境——强化学习领域的Hello World完美展示了探索与利用的永恒博弈。不同于普通的迷宫问题Cliff Walking的精妙之处在于安全路径贴着悬崖上方的长路径总奖励-13最优路径紧贴悬崖边缘的最短路径总奖励-11本文将带您用Python从零实现两种经典算法保守的Sarsa和冒险的Q-Learning。通过完整的代码示例和可视化分析您将深入理解表格型强化学习的核心实现逻辑两种算法在策略选择上的本质差异如何设计高效的训练流程关键参数对算法表现的影响import numpy as np import matplotlib.pyplot as plt import gym from gym import spaces1. 环境构建打造自己的Cliff Walking1.1 自定义Gym环境我们首先继承gym.Env类创建自定义环境。关键要素包括class CliffWalkingEnv(gym.Env): def __init__(self): self.shape (4, 12) self.start_pos (3, 0) self.goal_pos (3, 11) self.cliff [(3, i) for i in range(1, 11)] self.action_space spaces.Discrete(4) # 上:0 右:1 下:2 左:3 self.observation_space spaces.Discrete(self.shape[0] * self.shape[1]) self.reset()1.2 状态转移逻辑实现核心的_step方法处理移动逻辑和奖励计算def _step(self, action): x, y self.pos # 移动处理 if action 0: x max(x-1, 0) elif action 1: y min(y1, self.shape[1]-1) elif action 2: x min(x1, self.shape[0]-1) elif action 3: y max(y-1, 0) self.pos (x, y) done False reward -1 # 终止条件判断 if self.pos in self.cliff: reward -100 self.reset() elif self.pos self.goal_pos: done True reward 0 return self._get_state(), reward, done, {}1.3 可视化渲染添加渲染功能直观展示智能体移动def _render(self): grid [[. for _ in range(self.shape[1])] for _ in range(self.shape[0])] grid[self.goal_pos[0]][self.goal_pos[1]] G for c in self.cliff: grid[c[0]][c[1]] X grid[self.pos[0]][self.pos[1]] A for row in grid: print( .join(row)) print()2. Sarsa算法实现安全第一的保守派2.1 算法核心原理Sarsa属于on-policy算法其更新公式为Q(s,a) ← Q(s,a) α[r γQ(s,a) - Q(s,a)]其中a是根据当前策略在s状态选择的动作体现行动-评估的一致性。2.2 Python实现细节我们创建SarsaAgent类封装核心逻辑class SarsaAgent: def __init__(self, env, alpha0.1, gamma0.9, epsilon0.1): self.env env self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 self.Q np.zeros((env.observation_space.n, env.action_space.n)) def choose_action(self, state): if np.random.random() self.epsilon: return self.env.action_space.sample() return np.argmax(self.Q[state])2.3 训练流程剖析完整的训练循环展示Sarsa的在线学习特性def train(env, agent, episodes500): rewards [] for _ in range(episodes): state env.reset() action agent.choose_action(state) total_reward 0 done False while not done: next_state, reward, done, _ env.step(action) next_action agent.choose_action(next_state) # Sarsa核心更新 td_target reward agent.gamma * agent.Q[next_state][next_action] td_error td_target - agent.Q[state][action] agent.Q[state][action] agent.alpha * td_error state, action next_state, next_action total_reward reward rewards.append(total_reward) return rewards2.4 结果可视化分析运行训练后我们观察到收敛路径智能体学会走上方安全路径学习曲线约200轮后趋于稳定策略特点避开悬崖边缘即使路径更长plt.plot(moving_average(rewards, window10)) plt.xlabel(Episode) plt.ylabel(Total Reward) plt.title(Sarsa Learning Curve)3. Q-Learning实现追求最优的冒险家3.1 算法核心差异Q-Learning是off-policy算法其更新公式为Q(s,a) ← Q(s,a) α[r γmax_aQ(s,a) - Q(s,a)]关键区别在于使用最大Q值而非实际采取的动作。3.2 Python实现对比在agent类中修改更新逻辑class QLearningAgent(SarsaAgent): def update(self, state, action, reward, next_state, done): if done: td_target reward else: td_target reward self.gamma * np.max(self.Q[next_state]) td_error td_target - self.Q[state][action] self.Q[state][action] self.alpha * td_error3.3 训练流程调整修改训练循环体现off-policy特性def qlearn_train(env, agent, episodes): rewards [] for _ in range(episodes): state env.reset() total_reward 0 done False while not done: action agent.choose_action(state) next_state, reward, done, _ env.step(action) agent.update(state, action, reward, next_state, done) state next_state total_reward reward rewards.append(total_reward) return rewards3.4 结果对比分析与Sarsa相比Q-Learning表现出路径选择学会冒险走悬崖边缘的最短路径收敛速度通常比Sarsa更快找到高奖励策略风险暴露偶尔会跌落悬崖导致奖励波动# 对比两种算法的移动平均奖励 plt.plot(sarsa_ma, labelSarsa) plt.plot(qlearn_ma, labelQ-Learning) plt.legend()4. 深度解析算法差异与工程实践4.1 策略差异的本质通过价值热力图可以直观理解两种算法的策略差异状态特征Sarsa策略Q-Learning策略靠近悬崖的状态价值较低避免接近价值较高敢冒险安全路径状态价值梯度均匀价值梯度陡峭def plot_values(agent, title): values np.max(agent.Q, axis1).reshape(4,12) plt.imshow(values, cmaphot) plt.title(title)4.2 超参数调优指南关键参数的影响实验数据参数典型范围对Sarsa影响对Q-Learning影响学习率α0.01-0.5过大导致震荡可设更大值(如0.5)探索率ε0.05-0.3需要持续探索可随时间衰减折扣因子γ0.8-0.99较高值(0.95)效果更好适中值(0.9)最佳4.3 实用技巧与陷阱规避经验技巧对Q-Learning使用ε衰减epsilon max(0.01, epsilon*0.995)初始化Q值为乐观值如0鼓励探索监控Q值变化幅度判断收敛常见陷阱固定ε导致Q-Learning持续跌落悬崖α过大导致Sarsa无法稳定收敛没有定期测试贪婪策略的真实表现# ε衰减示例 class DecayEpsilonAgent(QLearningAgent): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) self.initial_epsilon self.epsilon def choose_action(self, state, episode): self.epsilon self.initial_epsilon / (1 episode // 100) return super().choose_action(state)5. 进阶扩展算法变体与性能提升5.1 Expected Sarsa实现结合Sarsa和Q-Learning优点的变体class ExpectedSarsaAgent(QLearningAgent): def update(self, state, action, reward, next_state, done): if done: td_target reward else: policy np.ones(self.env.action_space.n) * self.epsilon / self.env.action_space.n policy[np.argmax(self.Q[next_state])] 1 - self.epsilon td_target reward self.gamma * np.sum(policy * self.Q[next_state]) self.Q[state][action] self.alpha * (td_target - self.Q[state][action])5.2 使用经验回放提升样本效率的改进方案class ReplayBuffer: def __init__(self, capacity1000): self.buffer collections.deque(maxlencapacity) def add(self, experience): self.buffer.append(experience) def sample(self, batch_size): return random.sample(self.buffer, batch_size) # 在训练循环中 buffer ReplayBuffer() for episode in range(episodes): # ...环境交互... buffer.add((state, action, reward, next_state, done)) # 从buffer采样进行更新 batch buffer.sample(32) for exp in batch: agent.update(*exp)5.3 多步TD学习平衡MC和TD方法的折中方案class NStepSarsaAgent(SarsaAgent): def __init__(self, n_steps3, *args, **kwargs): super().__init__(*args, **kwargs) self.n_steps n_steps self.trajectory [] def update(self, state, action, reward, next_state, done): self.trajectory.append((state, action, reward)) if len(self.trajectory) self.n_steps or done: states, actions, rewards zip(*self.trajectory) G sum([r * (self.gamma**i) for i, r in enumerate(rewards)]) if not done: G (self.gamma**self.n_steps) * self.Q[next_state][self.choose_action(next_state)] s, a states[0], actions[0] self.Q[s][a] self.alpha * (G - self.Q[s][a]) self.trajectory.pop(0)结语从Cliff Walking到现实应用通过这个看似简单的网格世界我们已经掌握了强化学习最核心的思想精髓。在实际项目中这些算法经过适当调整可以应用于机器人路径规划游戏AI策略优化资源调度决策系统记住没有放之四海皆准的完美算法——Sarsa的保守稳健和Q-Learning的激进高效各有适用场景。真正的高手懂得根据实际问题特点选择合适的工具并通过系统化的实验验证找到最佳参数组合。

机器学习求解流体PDE：警惕弱基准与报告偏误导致的效率高估

1. 机器学习求解流体PDE：一场被高估的效率革命？ 在计算物理和工程仿真领域，求解偏微分方程（PDE）是模拟从空气动力学到气候预测等无数自然现象的核心。几十年来，科学家和工程师们开发了诸如有限差分、有限体…

2026/5/24 6:16:35 阅读更多

Arm Cortex-A处理器Spectre-BSE漏洞分析与防护方案

1. 漏洞背景与影响范围解析2025年7月，Arm公司发布了一份关于新型侧信道攻击漏洞CVE-2024-10929的安全公告。这个被称为Spectre-BSE（Branch Status Eviction）的漏洞，本质上是Spectre系列漏洞的一个新变种，主要影响部分A…

2026/5/24 6:15:14 阅读更多

深度强化学习在VLSI布局优化中的应用与优化

1. 深度强化学习在VLSI布局优化中的技术背景VLSI物理设计中的布局阶段需要同时优化多个相互冲突的目标：线长（Wirelength）、时序（Timing）、功耗（Power）和面积（Area）。传统…

2026/5/24 6:15:14 阅读更多

CNN-LSTM模型与数据降维在物联网边缘计算中的实践

1. 项目概述：当边缘计算遇上时序数据，我们如何用CNN-LSTM破局？在物联网（IoT）的世界里，传感器是永不疲倦的哨兵，它们每时每刻都在产生海量的时序数据。从智能工厂的振动监测到智慧城市的交通流量…

2026/5/24 7:07:08 阅读更多

矩阵补全算法在CETA贸易协定评估中的应用：从企业产品组合到贸易转移效应

1. 项目概述：当贸易协定遇上多产品企业做国际贸易研究或者企业战略分析的朋友，对一个问题肯定不会陌生：一个大型贸易协定（比如CETA，欧盟-加拿大的综合经济与贸易协定）签了，关税降了，…

2026/5/24 7:07:08 阅读更多

Nginx TLS DH参数安全加固：2048位DH强度原理与七层验证指南

1. 这不是“换个参数”就能糊弄过去的安全问题你有没有遇到过这样的扫描报告？——Nessus、OpenVAS 或绿盟漏扫工具突然标红一行：“SSL/TLS Diffie-Hellman 密钥交换使用弱 DH 参数（<2048 位），存在 Logjam 攻击风险”…

2026/5/24 7:05:26 阅读更多

全同态加密与图机器学习在隐私保护反洗钱中的工程实践

1. 项目概述：当图机器学习遇上全同态加密在金融犯罪，尤其是反洗钱（AML）的战场上，我们一直面临一个核心矛盾：数据孤岛阻碍了协同作战的效能，而严格的隐私法规（如GDPR）又像…

2026/5/24 7:04:04 阅读更多

UE5 Python插件蓝图节点重启失效的根因与三重修复方案

1. 这不是Python写得不对，是UE5的蓝图加载机制在“耍花招”你刚写完一个漂亮的Python插件，用unreal.PythonScriptPlugin注册了几个自定义蓝图节点，功能逻辑清晰、参数配置合理，测试时一切正常。可一旦关闭再重启UE5编辑器&#xf…

2026/5/24 7:03:24 阅读更多

【无人机控制】基于强化学习在无人机中调整PID参数附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。 🍎完整代码获取定制创新论文复现点击：Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &…

2026/5/24 7:03:03 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

机器学习求解流体PDE：警惕弱基准与报告偏误导致的效率高估

Arm Cortex-A处理器Spectre-BSE漏洞分析与防护方案

深度强化学习在VLSI布局优化中的应用与优化

CNN-LSTM模型与数据降维在物联网边缘计算中的实践

矩阵补全算法在CETA贸易协定评估中的应用：从企业产品组合到贸易转移效应

Nginx TLS DH参数安全加固：2048位DH强度原理与七层验证指南

全同态加密与图机器学习在隐私保护反洗钱中的工程实践

UE5 Python插件蓝图节点重启失效的根因与三重修复方案

【无人机控制】基于强化学习在无人机中调整PID参数附Matlab代码

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥