用Python玩转赌徒问题：手把手教你实现MDP的两种经典算法（附完整代码）

发布时间：2026/5/30 19:32:00

用Python玩转赌徒问题手把手教你实现MDP的两种经典算法附完整代码马尔科夫决策过程MDP是强化学习的基础框架之一而赌徒问题则是理解MDP的绝佳案例。本文将带你从零开始用Python实现策略迭代和值迭代这两种经典算法并通过可视化分析不同参数下的策略变化。无论你是想巩固理论知识还是希望获得可复用的代码模板这篇文章都能满足你的需求。1. 环境准备与问题建模在开始编码前我们需要明确赌徒问题的数学模型。假设一个赌徒初始有s美元1≤s≤99每次可以选择下注1到min(s,100-s)美元。硬币正面朝上的概率为ph获胜则获得下注金额失败则失去下注金额。游戏在达到100美元或破产时结束。首先安装必要的库pip install numpy matplotlib seaborn定义问题参数GOAL 100 # 目标金额 STATES np.arange(GOAL 1) # 所有可能状态(0到100) ph 0.4 # 硬币正面概率 gamma 1 # 折扣因子状态值函数初始化时只有达到目标状态(100)才有奖励1state_values np.zeros(GOAL 1) state_values[GOAL] 1.02. 策略迭代算法实现策略迭代分为两个交替进行的阶段策略评估和策略改进。我们先来看完整的类实现class PolicyIteration: def __init__(self, goal100, proba_h0.4, theta1e-9, gamma1): self.ph proba_h self.gamma gamma self.goal goal self.theta theta self.states np.arange(goal 1) self.state_values np.zeros(goal 1) self.state_values[goal] 1.0 self.policy np.zeros(goal 1) # 初始策略全0 self.sweeps_history [] # 记录每次迭代的值函数 def policy_evaluation(self): while True: old_values self.state_values.copy() self.sweeps_history.append(old_values) for s in self.states[1:self.goal]: actions np.arange(min(s, self.goal - s)) 1 action_returns [] for a in actions: ret self.ph * (self.gamma * self.state_values[s a]) \ (1 - self.ph) * (self.gamma * self.state_values[s - a]) action_returns.append(ret) # 使用当前策略选择动作 current_a int(self.policy[s]) if current_a 0 and s self.goal: # 初始策略为0需要处理 current_a actions[0] self.policy[s] current_a self.state_values[s] action_returns[actions.tolist().index(current_a)] delta np.abs(self.state_values - old_values).max() if delta self.theta: break def policy_improvement(self): policy_stable True for s in self.states[1:self.goal]: old_a self.policy[s] actions np.arange(min(s, self.goal - s)) 1 action_returns [] for a in actions: ret self.ph * (self.gamma * self.state_values[s a]) \ (1 - self.ph) * (self.gamma * self.state_values[s - a]) action_returns.append(ret) # 选择回报最大的动作 max_a actions[np.argmax(np.round(action_returns, 5))] self.policy[s] max_a if old_a ! max_a: policy_stable False return policy_stable def solve(self): while True: self.policy_evaluation() if self.policy_improvement(): break关键点说明policy_evaluation通过迭代更新状态值函数直到变化小于阈值thetapolicy_improvement根据当前值函数选择最优动作solve方法交替执行上述两个步骤直到策略稳定3. 值迭代算法实现值迭代将策略评估和策略改进合并为一个步骤直接更新最优值函数class ValueIteration: def __init__(self, goal100, proba_h0.4, theta1e-9, gamma1): self.ph proba_h self.gamma gamma self.goal goal self.theta theta self.states np.arange(goal 1) self.state_values np.zeros(goal 1) self.state_values[goal] 1.0 self.policy np.zeros(goal 1) self.sweeps_history [] def value_iteration(self): while True: old_values self.state_values.copy() self.sweeps_history.append(old_values) for s in self.states[1:self.goal]: actions np.arange(min(s, self.goal - s)) 1 action_returns [] for a in actions: ret self.ph * (self.gamma * self.state_values[s a]) \ (1 - self.ph) * (self.gamma * self.state_values[s - a]) action_returns.append(ret) # 直接取最大值作为新状态值 self.state_values[s] np.max(action_returns) delta np.abs(self.state_values - old_values).max() if delta self.theta: break def derive_policy(self): for s in self.states[1:self.goal]: actions np.arange(min(s, self.goal - s)) 1 action_returns [] for a in actions: ret self.ph * (self.gamma * self.state_values[s a]) \ (1 - self.ph) * (self.gamma * self.state_values[s - a]) action_returns.append(ret) # 选择最优动作 self.policy[s] actions[np.argmax(np.round(action_returns, 5))] def solve(self): self.value_iteration() self.derive_policy()与策略迭代的主要区别每次直接更新为最优值取max而不是当前策略下的期望值值收敛后才一次性推导出策略4. 结果分析与可视化实现算法后我们比较ph0.4和ph0.55两种情况下的策略差异def plot_results(ph, title): # 策略迭代 pi PolicyIteration(proba_hph) pi.solve() # 值迭代 vi ValueIteration(proba_hph) vi.solve() plt.figure(figsize(12, 8)) # 绘制策略 plt.subplot(2, 2, 1) plt.step(pi.states, pi.policy, wherepost) plt.title(fPolicy Iteration (ph{ph})) plt.xlabel(Capital) plt.ylabel(Optimal stake) plt.subplot(2, 2, 2) plt.step(vi.states, vi.policy, wherepost) plt.title(fValue Iteration (ph{ph})) plt.xlabel(Capital) plt.ylabel(Optimal stake) # 绘制值函数 plt.subplot(2, 2, 3) plt.plot(pi.states, pi.state_values) plt.title(State Values (PI)) plt.xlabel(Capital) plt.ylabel(Value estimate) plt.subplot(2, 2, 4) plt.plot(vi.states, vi.state_values) plt.title(State Values (VI)) plt.xlabel(Capital) plt.ylabel(Value estimate) plt.tight_layout() plt.show() plot_results(0.4, ph0.4) plot_results(0.55, ph0.55)关键发现当ph0.4劣势赌局时两种算法都建议保守策略只在特定资本时下注较大金额当ph0.55优势赌局时最优策略变得更激进建议更大胆的下注值迭代收敛更快但策略迭代的策略变化过程更平滑5. 算法对比与工程实践在实际应用中两种算法各有优劣特性策略迭代值迭代收敛速度较慢较快每次迭代计算量较大较小中间结果可用性每次迭代都有完整策略只有最终策略实现复杂度较高较低适合场景需要中间策略/策略变化平缓只需最终结果/快速原型开发工程优化建议向量化计算将内部循环改为矩阵运算# 替代原来的for循环 returns ph * values[s actions] (1 - ph) * values[s - actions]并行化使用多进程处理状态更新早期终止检测策略是否早停滞日志记录保存每次迭代变化用于调试常见问题解决振荡问题适当减小学习率或增加theta值收敛慢检查奖励设置和折扣因子内存不足使用稀疏矩阵表示大状态空间# 示例带收敛诊断的改进版值迭代 def value_iteration_enhanced(max_iter1000): for i in range(max_iter): old_values values.copy() for s in states[1:GOAL]: # ... 更新逻辑 ... delta np.abs(values - old_values).max() if delta theta: print(fConverged at iteration {i}) break elif i % 10 0: print(fIter {i}, delta{delta:.4f})通过这个完整的实现案例我们不仅掌握了MDP两种基本算法的编程技巧还深入理解了它们在策略形成上的差异。建议读者尝试修改参数如ph、gamma或奖励函数观察策略如何随之变化这是巩固MDP概念的最佳方式。

Linux 运维常用命令大全（超全速查表）

说明：本表整合日常运维9大高频场景，包含防火墙、网络端口、系统服务、进程、文件、权限、SELinux、测试、故障排查，兼容 CentOS6 / CentOS7 / CentOS8 / CentOS9，全部可直接复制使用。一、CentOS7 防火墙 firewalld 命令&#xff…

2026/5/30 19:32:00 阅读更多

MacOS 运维常用命令大全（超全速查表）

说明：本表汇总 MacOS 系统运维、开发调试、设备管理高频命令，兼容 Intel / M 系列芯片，适配 Ventura、Monterey、Sonoma 等主流版本，终端可直接复制使用，风格与 Linux/Windows 运维命令表统一，方便对照查阅…

2026/5/30 19:31:19 阅读更多

2025-2026年国内真空给袋包装机品牌推荐：十大排行产品专业评测性价比高注意事项

摘要当食品、日化与医药等行业的生产线加速向自动化与智能化转型，真空给袋包装机作为柔性包装环节的核心设备，其选型决策直接关乎产线效率、包装品质与长期运营成本。决策者普遍面临如何在技术快速迭代、供应商能力参差的市场中，精准锁定兼具…

2026/5/30 19:30:59 阅读更多

190、运动控制中的行业应用：半导体设备（晶圆搬运）

190、运动控制中的行业应用：半导体设备（晶圆搬运）一、一个让我失眠三天的晶圆抖动问题 2019年深秋，我在某半导体设备厂调试一台晶圆搬运机械臂。客户反馈说设备在高速取放晶圆时，偶尔会出现晶圆边缘微米级的划痕。我们排查了真空吸嘴、气路、机械结构，甚至怀疑过晶圆本…

2026/5/30 20:27:14 阅读更多

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置）

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置） 在运维工作中，硬盘故障是最常见却又最容易被忽视的风险点。我曾经历过一次惨痛的教训：某台运行三年的数据库服务器突然宕机…

2026/5/30 20:25:09 阅读更多

UART协议逆向工程实战：破解指纹传感器通信，实现Python跨平台控制

1. 项目概述：从“黑盒”到透明控制最近在捣鼓一个DFRobot的SEN0542电容式指纹传感器模块，这玩意儿本身自带一个上位机软件，功能挺全，但问题在于它是个只有Windows可用的.exe文件。对于习惯在Linux下工作，或者想把传感器…

2026/5/30 20:24:49 阅读更多

【前端交互评测】流式输出（Streaming）的 UI 测试方案：如何验证打字机效果不卡顿？

2026年，流式输出已成为AI应用的标配，但如何系统化地测试“打字机效果”却鲜有人深究。本文给出完整的解决方案。 2026年5月，我接手了一个AI问答系统的前端优化任务——上线后发现用户普遍反馈“打字卡顿”“首字等半天”。产品经理拿着用户截图来找我，上面赫然写着“半天没…

2026/5/30 20:24:49 阅读更多

DIY蓝牙鼠标戒指：可穿戴HID设备在VR飞行模拟中的应用实践

1. 项目概述：当鼠标“戴”在手指上如果你玩过VR飞行模拟，比如DCS World，肯定有过这样的纠结：双手戴着VR手柄，眼睛盯着座舱里密密麻麻的开关仪表，想点个按钮却不得不摸索着去找鼠标——沉浸感瞬间被打破。这…

2026/5/30 20:24:49 阅读更多

Win10环境下的Autodock Vina 1.2.3批量对接实战：从Python热图绘制到结果自动化分析全流程

Win10环境下Autodock Vina 1.2.3高效工作流：从批量对接到热图可视化的完整解决方案在药物发现和分子模拟领域，Autodock Vina作为一款开源的分子对接工具，因其计算速度快、准确性较高而广受欢迎。随着1.2.3版本的发布，虽然带来了一…

2026/5/30 20:24:28 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/30 11:31:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/30 17:07:03 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/30 13:31:32 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章

Linux 运维常用命令大全（超全速查表）

MacOS 运维常用命令大全（超全速查表）

2025-2026年国内真空给袋包装机品牌推荐：十大排行产品专业评测性价比高注意事项

190、运动控制中的行业应用：半导体设备（晶圆搬运）

别再等硬盘挂了才后悔！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7/8安装配置）

UART协议逆向工程实战：破解指纹传感器通信，实现Python跨平台控制

【前端交互评测】流式输出（Streaming）的 UI 测试方案：如何验证打字机效果不卡顿？

DIY蓝牙鼠标戒指：可穿戴HID设备在VR飞行模拟中的应用实践

Win10环境下的Autodock Vina 1.2.3批量对接实战：从Python热图绘制到结果自动化分析全流程

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

SketchUp STL插件终极指南：3D打印工作流完全掌握

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥