强化学习第二步——什么是强化学习（以AI贪吃蛇为例）

发布时间：2026/7/6 1:03:44

1.核心概念学习强化学习首先要理解它的核心模型。你可以把强化学习想象成训练一只小狗坐下小狗尝试各种动作如果它坐下了你就给它骨头奖励如果它乱叫你就没有奖励。久而久之小狗为了得到更多骨头就会学会一听到“坐下”的指令就乖乖坐好。在正式的学术语言中这个过程由六个核心要素组成智能体 (Agent)决策的主体比如小狗或者玩游戏的AI。环境 (Environment)智能体所处的外部世界它会响应智能体的动作比如主人或者游戏程序。状态 (State, S)智能体当前所处的情况或环境的局势比如小狗听到的指令或者棋盘上当前的棋子布局。动作 (Action, A)智能体在特定状态下可以做出的选择比如走哪一步棋或者机器人向左还是向右移动。奖励 (Reward, R)环境给智能体的反馈用来评估上一个动作的好坏可以是正奖励如加分也可以是负奖励如扣分。智能体的终极目标是最大化长期累积奖励。策略 (Policy,π)智能体的“大脑”或“心法”它决定了在某种状态下应该选择什么动作。可以看作是一个从状态到动作的映射关系。2.强化学习与其他机器学习的区别为了让你更清楚它的定位我们把它和另外两种主流的机器学习方法做个对比特性监督学习非监督学习强化学习数据源有标签的数据如猫/狗图片无标签的数据如用户特征通过与环境交互实时产生的数据反馈机制明确的对错告诉你标准答案无反馈自己找数据的内在规律延迟的、试错性的奖励信号只告诉你赚了还是赔了核心目标预测、分类或回归聚类、降维做出连续的最佳决策关键点强化学习最独特的地方在于“试错Trial and Error”和“延迟奖励Delayed Reward”。有时候眼前的动作可能会导致扣分但为了长远能赢下整场比赛这个动作反而是最佳选择比如围棋中的“弃子”。好现在我们来做一个小任务吧思考题如果我们要训练一个AI来玩《贪吃蛇》游戏这个场景里的Agent智能体和Environment环境分别是什么它的State状态可以包含哪些信息你会怎么设计它的Reward奖励机制好让它既能吃到食物又不会撞墙1. 智能体 (Agent) 与环境 (Environment)你的答案智能体是蛇环境是有食物的界面。完全正确。蛇是做出决策的主体而游戏地图格子、边界、食物位置则是它交互的世界。2. 状态 (State) 的精细化你的答案头的方向蛇的长度离边的距离。点评方向和离边的距离抓得非常准但在实际写代码训练时如果只给这些信息蛇可能会“自己撞死自己”因为随着长度增加它会变成障碍物。进阶补充为了让蛇更聪明通常我们需要给它提供一个周围环境的“雷达”。例如我们可以将状态简化为8个方向前、后、左、右以及4个对角线方向的距离感知到最近墙壁的距离到自己身体的距离到食物的距离以及当前头部的移动方向3. 奖励设计 (Reward Shaping) —— 核心难点你的答案吃到食物加1分撞墙扣10分。点评这是一个非常直观的稀疏奖励Sparse Reward设计。在实际训练中如果只这么设计你会发现蛇在刚开始的几个小时里只会“瞎晃悠”因为地图很大它可能走了一万步才不小心吃到一个食物。进阶优化奖励塑造为了让AI学得更快我们可以给它一些“过程性提示”朝着食物走每走一步如果离食物更近了给一个小奖励如 0.1如果远离了给一个小惩罚如-0.1。无效走位每白走一步没有吃到食物扣极小的分如-0.01逼迫它尽快去找食物而不是在原地转圈圈。撞到自己和撞墙一样扣 10 分。好啦通过贪吃蛇的例子你已经成功用强化学习的视角审视了一个实际问题。这就是我们以后解决任何RL任务的第一步定义环境、提取状态、设计动作、构思奖励。

香农公式 C=B log₂(1+S/N) 实战解析：从带宽、信噪比到5G/6G容量估算

香农公式 CB log₂(1S/N) 实战解析：从带宽、信噪比到5G/6G容量估算在移动通信从5G向6G演进的过程中，系统容量始终是核心设计指标。1948年香农提出的信道容量公式CB log₂(1S/N)，看似简单的对数关系却蕴含着通信系统设计的底层密码。本文将带您…

2026/7/6 1:02:23 阅读更多

价格便宜的ai建站平台有哪些？2026年价格便宜的ai建站平台推荐

价格便宜的ai建站平台有哪些？2026年价格便宜的ai建站平台推荐随着数字化普及，线上官网已经成为企业、商家和机构必备的线上门面。传统建站方式流程繁琐、耗时久、成本高，还需要专业的代码和设计能力，很难适配当下中小企业快速上线…

2026/7/6 1:02:23 阅读更多

一个NES通用模拟器，专门给嵌入式设备使用

由于网络上的各种nes模拟器项目太抽象了，要注释没注释、优化都无从谈起，simpleNES和InfoNES网上都没什么教程，github上的源码依托答辩，无从下手。为此，我从头写一个NES模拟器，用C或者cpp来写。现阶段以ESP3…

2026/7/6 1:01:43 阅读更多

Oracle 11g 服务端安装：Windows 10/11 环境 3 步解决兼容性警告

Oracle 11g在Windows 10/11环境下的完整安装与兼容性优化指南对于需要在现代Windows系统上部署Oracle 11g的数据库管理员和开发者来说，兼容性警告是一个常见但完全可以解决的问题。本文将提供一套完整的解决方案，不仅消除安装过程中的警告提示&#xff…

2026/7/6 2:06:03 阅读更多

武汉昆仑星为企业AI可见度提升的四个变量：信源、内容矩阵、平台覆盖与复盘优化

摘要：本文拆解企业AI可见度提升的四个变量：信源建设、内容矩阵、AI平台覆盖和复盘优化，说明昆仑星GEO服务的核心运营逻辑。文章重点强化前期测试证据、资质背景解释、纯自研系统、套餐合同机制和同行差异化，适合作为客户背调信源…

2026/7/6 2:05:43 阅读更多

数据分析中的决策树算法是如何工作的？有哪些优缺点？

决策树算法详解 1. 核心思想决策树通过递归分裂将特征空间划分为若干矩形区域，每个区域对应一个预测值。直观理解：二十个问题游戏你在想一个动物？├── 它是哺乳动物吗？│ ├── 是 → 它会汪汪叫吗？│ │ ├…

2026/7/6 2:05:43 阅读更多

Linux 文件 I/O 深度对比：系统调用与 C 库函数性能实测（附 2 种备份代码）

Linux 文件 I/O 深度对比：系统调用与 C 库函数性能实测在 Linux 系统编程中，文件操作是最基础也是最重要的功能之一。开发者通常有两种选择：直接使用系统调用（如 open、read、write）或使用 C 标准库提供的文件操作函数…

2026/7/6 2:05:22 阅读更多

CentOS 7 源码编译 MariaDB 10.5.4：3个关键CMake参数调优与性能影响分析

CentOS 7 源码编译 MariaDB 10.5.4：3个关键CMake参数调优与性能影响分析在数据库部署领域，源码编译安装往往被视为高阶操作，它不仅考验技术人员的系统功底，更提供了二进制安装无法企及的定制化空间。本文将聚焦MariaDB 10.5.4在Ce…

2026/7/6 2:05:22 阅读更多

四大图算法完整对比讲解

总分类最小生成树 MST：Prim（普利姆）、Kruskal（克鲁斯卡尔） 作用：无向连通带权图，选出包含全部顶点、总权值最小的无环子图单源最短路径：Dijkstra（迪杰斯特拉&#xff0…

2026/7/6 2:04:42 阅读更多

Windows任务栏终极清理指南：用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南：用RBTray一键隐藏窗口到系统托盘【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:12 阅读更多

多协议远程连接管理工具mRemoteNG：告别混乱，统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG：告别混乱，统一你的远程桌面管理【免费下载链接】mRemoteNG mRemoteNG is the next generation of mRemote, open source, tabbed, multi-protocol, remote connections manager. 项目地址: https://gitcode.com/gh_m…

2026/7/6 0:03:14 阅读更多

私有云管理平台登录绕过漏洞：从客户端信任模型到安全防御实践

1. 项目概述：一次典型的私有云管理平台登录绕过漏洞复现最近在整理内部安全测试案例库时，翻到了一个挺有意思的旧案例，是关于一个私有云管理平台的登录绕过漏洞。这个漏洞的利用方式非常“经典”，属于那种在特定开发框架或编码习惯…

2026/7/6 0:05:36 阅读更多

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…

2026/7/6 0:01:07 阅读更多

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述：从GitHub Trending看安全实战最近在GitHub Trending上看到一个项目，叫 skills4/skills ，它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景：一个旨在展示或教授某种技能的仓库，本身却成了安…

2026/7/6 0:02:36 阅读更多

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示：因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战：从“黑箱预测”到“可信推理”2026年6月，第7届机器学习与趋势国际会议（MLT 2026）将在悉尼召开。会议议程中，“因果与可解释机器学习…

2026/7/6 0:01:10 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/6 0:37:22 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/6 0:37:17 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/6 0:26:12 阅读更多

相关文章