图解强化学习｜手算无模型学习：蒙特卡罗与时序差分

发布时间：2026/5/31 16:26:11

欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月31日✉️希望可以和大家一起完成进阶之路目录21 点Blackjack蒙特卡罗算法核心思想手算过程数学公式时序差分算法核心思想手算过程21 点Blackjack观测是三元组(玩家点数, 庄家明牌点数, 是否有可用Ace)Ace 可记 11 点可用或 1 点优先按 11 计算爆牌时自动转为 1 点。仅两个选择0停牌不再要牌、1要牌再抽一张牌牌池为有放回抽样。开局双方各发两张牌玩家先决策持续要牌直到停牌或点数超 21爆牌对局提前结束。玩家停牌后庄家亮暗牌并按固定规则补牌点数不足 17 必须要牌≥17 则停牌。玩家点数庄家 / 庄家爆牌玩家胜奖励1玩家爆牌 / 玩家点数庄家玩家负奖励-1点数一致平局奖励0对局中途即时奖励均为0仅对局结束后结算奖惩。玩家选择停牌或玩家要牌后点数超过 21。蒙特卡罗算法核心思想无模型学习无法获取环境转移概率只能依靠与环境交互得到的完整对局Episode 估计价值。蒙特卡洛方法是最直观的无模型算法必须跑完一整局游戏拿到最终胜负奖励后再反向更新每一步的价值与策略。手算过程假设我们现在已经玩完了一局游戏对局轨迹如下本局为首次对局所有的动作价值 (Q(s,a))、回报(G)列表初始值均为 0 /空列表。步骤 1逆序遍历轨迹逐点计算MC 核心初始化累积回报G_sum 0首先处理的最后一步t1)累加累积回报:GG_sumr101.01.0存入历史回报列表:此时我们选择的是动作0所以rewardss1,0)[1.0,.......]更新Q值:此时我们选择的是动作0所以Qs1,0)mean[1.0,.......]1.0然后再更新策略然后处理t0)累加累积回报沿用前面总和GG_sumr21.001.0存入历史回报列表:此时我们选择的是动作1所以rewardss0,1)[1.0,.......]更新Q值:此时我们选择的是动作1所以Qs0,1)mean[1.0,.......]1.0然后再更新策略数学公式时序差分算法核心思想用 “现实得到的奖励预估未来价值”去修正 “我之前的估计”。时序差分 TD 走一步就更新一步不用等游戏结束用 “眼前奖励下一个状态的估计价值” 来更新当前价值。手算过程数学公式

基于确定学习的人体生物信号建模识别及其应用方案【附数据】

✨ 长期致力于确定学习、持续激励、非线性动力学系统、非线性系统动态、模式建模与识别、自适应、人体生物信号、步态识别、心肌缺血检测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取…

2026/5/31 16:25:50 阅读更多

从零打造Arduino蜘蛛机器人：舵机控制与步态算法详解

1. 项目概述：从零打造一个会“跳舞”的蜘蛛机器人如果你对机器人制作感兴趣，但又觉得那些复杂的工业机械臂或者人形机器人门槛太高，那么这个基于Arduino和舵机的蜘蛛机器人项目，绝对是一个绝佳的入门选择。它不像一些简单的循迹小…

2026/5/31 16:25:10 阅读更多

Arduino与WS2812B打造智能温感光影城市：从传感器到LED的物联网实践

1. 项目概述与核心思路几年前，我第一次接触Arduino和WS2812B灯带时，就被这种将物理世界与数字光影无缝连接的可能性深深吸引。当时就在想，能不能做一个不只是静态展示，而是能“感知”并“回应”环境的作品？于是&#x…

2026/5/31 16:25:10 阅读更多

如何快速获取国家中小学智慧教育平台电子课本：免费下载工具完整指南

如何快速获取国家中小学智慧教育平台电子课本：免费下载工具完整指南【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取课本内容…

2026/5/31 19:00:00 阅读更多

GPT还是MBR？给SATA/NVMe固态硬盘分区选错，重装系统白忙活

GPT还是MBR？给SATA/NVMe固态硬盘分区选错，重装系统白忙活刚拆封的NVMe固态硬盘在手中泛着金属光泽，我却盯着BIOS里"Invalid Partition Table"的报错信息陷入沉思。这是上周帮学弟装机时遇到的真实场景——一块全新的1TB固态硬盘&am…

2026/5/31 18:59:19 阅读更多

多模态记忆：让 AI Agent 记忆各种类型的信息

多模态记忆：让 AI Agent 记忆各种类型的信息前言多模态记忆是指让 AI Agent 能够记忆和理解多种类型的信息，包括文本、图像、音频等。这能显著提升 Agent 的能力。我在多个项目中实现过多模态记忆，今天分享一些设计和实现。记忆项设计…

2026/5/31 18:56:54 阅读更多

AI 应用安全最佳实践：保护数据和系统安全

AI 应用安全最佳实践：保护数据和系统安全前言 AI 应用的安全是一个综合性的话题，涉及数据保护、模型安全、API 安全等多个方面。随着 AI 应用的普及，安全问题变得越来越重要。我在项目中负责过多个 AI 系统的安全设计，对安全风险…

2026/5/31 18:56:54 阅读更多

【Gemini对手全景图谱】：2024年全球7大AI大模型竞对实力对比与技术代差分析

更多请点击： https://kaifayun.com 第一章：Gemini对手全景图谱总览 Google Gemini 自发布以来，迅速成为多模态大模型领域的关键参与者，但其技术演进与市场定位始终处于全球主流AI模型的激烈竞合关系中。理解其直接与间接对手的技…

2026/5/31 18:56:54 阅读更多

Buzz音频转录工具：如何用这款免费离线软件实现高效语音转文字？

Buzz音频转录工具：如何用这款免费离线软件实现高效语音转文字？ 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/b…

2026/5/31 18:56:34 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/5/31 0:03:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

2026/5/31 0:03:49 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/30 22:39:05 阅读更多

相关文章

基于确定学习的人体生物信号建模识别及其应用方案【附数据】

从零打造Arduino蜘蛛机器人：舵机控制与步态算法详解

Arduino与WS2812B打造智能温感光影城市：从传感器到LED的物联网实践

如何快速获取国家中小学智慧教育平台电子课本：免费下载工具完整指南

GPT还是MBR？给SATA/NVMe固态硬盘分区选错，重装系统白忙活

多模态记忆：让 AI Agent 记忆各种类型的信息

AI 应用安全最佳实践：保护数据和系统安全

【Gemini对手全景图谱】：2024年全球7大AI大模型竞对实力对比与技术代差分析

Buzz音频转录工具：如何用这款免费离线软件实现高效语音转文字？

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥