我们说了强化学习是一个没有老师、只有记分牌的熊孩子在房间里东撞西撞靠奖励和惩罚学会了生存。现在的问题是它到底有哪些具体的“学习方式”那些惊艳世界的应用——AlphaGo、自动驾驶、机器人后空翻——分别用了哪一套打法三大流派强化学习的几种“成长路径”强化学习发展了这么多年演化出了几条截然不同的技术路线。它们面对同一个问题——“怎么最大化长期奖励”——但解题思路完全不同。第一类基于价值的方法——给每个状态“打分”这一派的思路很简单我不去管“应该怎么做”我只管“哪里值得去”。智能体给每一个“状态”打个分——这个分数叫做“价值”。状态价值越高说明待在这个状态里未来越有可能拿到高奖励。然后智能体的决策逻辑就变成了看看当前状态下做什么动作能进入价值最高的下一个状态。最经典的算法叫Q-learning。它给每一个“状态-动作”组合打分这个分数就是Q值。比如在玩超级玛丽的时候Q值告诉你站在这个位置状态按跳跃键动作Q值是多少。智能体每次都选Q值最高的动作。这个方法的巅峰之作就是DQN深度Q网络。2013年DeepMind用DQN让AI学会了玩Atari游戏——就是那些70后80后小时候玩的“打砖块”“太空侵略者”。AI一开始什么都不会打了几个小时后自己摸索出了人类玩家都没发现的操作技巧。在有些游戏里它的水平超过了职业玩家。DQN的原理就是用深度神经网络去“猜”每一个状态-动作的Q值。它不需要知道游戏规则只需要看着屏幕画面自己学会“这个画面下按右键”比“按左键”得分更高。基于价值的方法优点是稳定、数学基础扎实。缺点是不擅长处理“连续动作”——比如你要控制一个机器人手臂动作是“旋转37.2度”而不是“左转/右转”这种离散选项。这时候基于价值的方法就有点力不从心了。第二类基于策略的方法——直接学“应该怎么做”这一派走了另一条路我不绕弯子了我直接学一个策略——给定状态我应该做什么动作。不像Q-learning那样先算价值再选动作策略方法直接输出动作。你可以把它想象成一个“肌肉记忆”——看到球飞过来手就直接伸出去接不用先在脑子里算“球的位置价值多少”。最著名的策略方法叫策略梯度。它的核心思路是你先随便初始化一个策略大概率很烂然后用它去跟环境交互收集一堆“轨迹”——也就是一系列状态、动作、奖励。然后你看哪些动作导致了高奖励就把这些动作的概率调高哪些动作导致了低奖励就把概率调低。重复这个过程策略就越来越好。策略方法的最大优势是天然适合连续动作空间。你想让一个机器人走路它的每一个关节都有连续的角度值——这不是“左转/右转”能解决的。策略方法可以直接输出“膝关节弯曲32.5度”这样的指令。PPO近端策略优化是目前最主流的策略方法之一。它的训练稳定调参友好被广泛应用在机器人控制、游戏AI等领域。第三类演员-评论家方法——两个脑袋一起想这是目前最强大的流派也是AlphaGo、AlphaZero背后用的核心技术。思路很巧妙让两个模型一起学一个负责“演”一个负责“评”。演员就是策略模型。它负责做动作像一个演员在台上表演。评论家就是价值模型。它负责评价演员的动作——“刚才那一步走得不错”或者“那一步是个败笔”。演员根据评论家的反馈不断调整自己的表演。评论家则根据最终的结果不断修正自己的评价标准。两个人互相促进、共同进步。这个方法既有了策略方法的灵活性能处理复杂动作又有了价值方法的稳定性有评价基准不会瞎学。它成了现代强化学习应用最广泛的架构。AlphaGo就是演员-评论家架构的典型代表。它的策略网络负责“下棋”价值网络负责“判断局面”。两者结合加上蒙特卡洛树搜索的推演能力最终击败了李世石和柯洁。后来的AlphaZero更进一步——它不学人类棋谱纯靠自己跟自己下棋从零开始学会了围棋、象棋、将棋每一个都达到了超人类水平。说了这么多它到底有什么用强化学习的作用已经远远超出了“玩游戏”的范畴。它正在改变那些需要“一连串决策”的领域。作用一游戏AI——最华丽的秀场这是强化学习最出圈的应用。从Atari游戏到围棋从Dota 2到《星际争霸》强化学习一次次刷新了人们对AI能力的认知。OpenAI Five在Dota 2里击败了世界冠军战队。这款游戏比围棋复杂得多——每一帧有2万个可能的动作游戏过程中有海量的不确定信息。OpenAI Five每天跟自己打相当于180年的游戏经验学会了团队配合、资源管理、甚至“诱敌深入”这类高级战术。AlphaStar在《星际争霸2》里达到了宗师级别。它学会了如何运营经济、如何侦查对手、如何在大规模战斗中调度单位。这些能力恰恰是现实世界中很多复杂决策问题的缩影。作用二机器人控制——从实验室走向工厂波士顿动力的机器人能跑能跳能后空翻背后离不开强化学习的贡献。传统机器人是靠“编程”控制的——工程师手写代码告诉机器人每个关节怎么动。但手写代码永远无法覆盖所有情况。强化学习的思路是让机器人自己去试。摔倒了自己爬起来走不稳自己调整重心。几千次几万次尝试之后机器人自己“长”出了一套行走的肌肉记忆。工业场景里强化学习已经在做机械臂抓取不规则物体、仓库机器人路径规划、无人机编队飞行。这些任务的特点是“动态变化”——你没法提前写好所有规则只能让机器人在实践中学习。作用三自动驾驶——最有价值的战场自动驾驶本质上是一个巨大的强化学习问题。车辆做出一个决策——加速、刹车、变道、转弯——环境会给出反馈安全到达、还是差点撞了。但这个“奖励”往往延迟得很厉害你变道超车这个动作可能10分钟后才会导致一次险情。强化学习天然擅长处理这种“延迟奖励”问题。特斯拉、Waymo等公司都在用强化学习训练决策模块。不只是简单的“保持车道”而是处理复杂的交互场景路口博弈、加塞与防加塞、行人的意图预测。这些场景没法用“规则”穷举只能用强化学习从大量驾驶数据中学习。作用四推荐系统——你每天都在用你可能不知道但强化学习已经在影响你每天看到的推荐内容。传统推荐系统是“贪心”的——用户点击了什么就推荐更多类似的。但这种策略短期收益高长期却可能让用户厌倦。强化学习的目标是“长期累积奖励”——它不仅要考虑“用户现在点不点”还要考虑“用户明天还用不用这个App”。抖音、快手、淘宝的推荐系统里都在尝试用强化学习来优化“长期用户留存”。它像一个聪明的运营知道什么时候该推荐你喜欢的利用什么时候该给你换换口味探索让你不知不觉就刷了两个小时。作用五大语言模型中的RLHF——ChatGPT的最后一公里GPT这类大语言模型是怎么变成“听话的助手”的光靠有监督学习不够——人类标注的“理想回答”数量有限模型学到的只是“模仿标注者”而不是“理解用户需要什么”。OpenAI用了一个叫RLHF从人类反馈中强化学习 的方法。流程是这样的先让模型生成很多回答人类标注员给这些回答打分——哪个回答更好哪个回答不好。再用这些打分数据训练一个“奖励模型”——它学会了“什么样的回答是人类喜欢的”。最后用强化学习去微调大模型目标是让模型生成的回答获得尽可能高的“奖励分”。这就是ChatGPT之所以“好用”的秘密武器。它不仅仅是“学会了说话”而是“学会了说什么话能让人满意”。RLHF把大语言模型从一个“会说话的AI”变成了一个“会好好说话的AI”。那个被打才知道疼的熊孩子最后怎么样了回到上篇开头的那个比喻。那个被丢进陌生房间的熊孩子。一开始他什么都怕什么都试撞了无数次墙挨了无数次电击。但他有一个优点他记住了每一次疼痛和每一次奖励。慢慢地他不再撞墙了。他知道哪里可以拿到高分哪里是死路。他开始规划路径——先往左走三步再往前两步按下按钮然后迅速退回安全区。他从一个只会乱撞的莽夫变成了一个深谙规则的策略家。最后他走出了房间。门打开的那一刻外面的老师惊讶地发现——这个学生不仅活着出来了还拿了全场的最高分。这就是强化学习的全部故事。它不是为了模仿人类而生的不是为了分析数据而生的。它是为了在复杂世界里做出一连串正确决策而生的。它不需要老师的教导不需要标准答案它只需要一个记分牌和一颗“试错一万次也不放弃”的心。从下棋赢过人类到机器人学会后空翻再到让ChatGPT学会好好说话——强化学习一直在做同一件事在混沌中摸索规律在失败中积累经验在长期的博弈里找到那条通向最大奖励的路径。
下篇:从挨打逆袭成冠军——AI中强化学习的类型与作用,以及它为什么能下赢围棋世界冠军
发布时间:2026/6/12 7:25:52
我们说了强化学习是一个没有老师、只有记分牌的熊孩子在房间里东撞西撞靠奖励和惩罚学会了生存。现在的问题是它到底有哪些具体的“学习方式”那些惊艳世界的应用——AlphaGo、自动驾驶、机器人后空翻——分别用了哪一套打法三大流派强化学习的几种“成长路径”强化学习发展了这么多年演化出了几条截然不同的技术路线。它们面对同一个问题——“怎么最大化长期奖励”——但解题思路完全不同。第一类基于价值的方法——给每个状态“打分”这一派的思路很简单我不去管“应该怎么做”我只管“哪里值得去”。智能体给每一个“状态”打个分——这个分数叫做“价值”。状态价值越高说明待在这个状态里未来越有可能拿到高奖励。然后智能体的决策逻辑就变成了看看当前状态下做什么动作能进入价值最高的下一个状态。最经典的算法叫Q-learning。它给每一个“状态-动作”组合打分这个分数就是Q值。比如在玩超级玛丽的时候Q值告诉你站在这个位置状态按跳跃键动作Q值是多少。智能体每次都选Q值最高的动作。这个方法的巅峰之作就是DQN深度Q网络。2013年DeepMind用DQN让AI学会了玩Atari游戏——就是那些70后80后小时候玩的“打砖块”“太空侵略者”。AI一开始什么都不会打了几个小时后自己摸索出了人类玩家都没发现的操作技巧。在有些游戏里它的水平超过了职业玩家。DQN的原理就是用深度神经网络去“猜”每一个状态-动作的Q值。它不需要知道游戏规则只需要看着屏幕画面自己学会“这个画面下按右键”比“按左键”得分更高。基于价值的方法优点是稳定、数学基础扎实。缺点是不擅长处理“连续动作”——比如你要控制一个机器人手臂动作是“旋转37.2度”而不是“左转/右转”这种离散选项。这时候基于价值的方法就有点力不从心了。第二类基于策略的方法——直接学“应该怎么做”这一派走了另一条路我不绕弯子了我直接学一个策略——给定状态我应该做什么动作。不像Q-learning那样先算价值再选动作策略方法直接输出动作。你可以把它想象成一个“肌肉记忆”——看到球飞过来手就直接伸出去接不用先在脑子里算“球的位置价值多少”。最著名的策略方法叫策略梯度。它的核心思路是你先随便初始化一个策略大概率很烂然后用它去跟环境交互收集一堆“轨迹”——也就是一系列状态、动作、奖励。然后你看哪些动作导致了高奖励就把这些动作的概率调高哪些动作导致了低奖励就把概率调低。重复这个过程策略就越来越好。策略方法的最大优势是天然适合连续动作空间。你想让一个机器人走路它的每一个关节都有连续的角度值——这不是“左转/右转”能解决的。策略方法可以直接输出“膝关节弯曲32.5度”这样的指令。PPO近端策略优化是目前最主流的策略方法之一。它的训练稳定调参友好被广泛应用在机器人控制、游戏AI等领域。第三类演员-评论家方法——两个脑袋一起想这是目前最强大的流派也是AlphaGo、AlphaZero背后用的核心技术。思路很巧妙让两个模型一起学一个负责“演”一个负责“评”。演员就是策略模型。它负责做动作像一个演员在台上表演。评论家就是价值模型。它负责评价演员的动作——“刚才那一步走得不错”或者“那一步是个败笔”。演员根据评论家的反馈不断调整自己的表演。评论家则根据最终的结果不断修正自己的评价标准。两个人互相促进、共同进步。这个方法既有了策略方法的灵活性能处理复杂动作又有了价值方法的稳定性有评价基准不会瞎学。它成了现代强化学习应用最广泛的架构。AlphaGo就是演员-评论家架构的典型代表。它的策略网络负责“下棋”价值网络负责“判断局面”。两者结合加上蒙特卡洛树搜索的推演能力最终击败了李世石和柯洁。后来的AlphaZero更进一步——它不学人类棋谱纯靠自己跟自己下棋从零开始学会了围棋、象棋、将棋每一个都达到了超人类水平。说了这么多它到底有什么用强化学习的作用已经远远超出了“玩游戏”的范畴。它正在改变那些需要“一连串决策”的领域。作用一游戏AI——最华丽的秀场这是强化学习最出圈的应用。从Atari游戏到围棋从Dota 2到《星际争霸》强化学习一次次刷新了人们对AI能力的认知。OpenAI Five在Dota 2里击败了世界冠军战队。这款游戏比围棋复杂得多——每一帧有2万个可能的动作游戏过程中有海量的不确定信息。OpenAI Five每天跟自己打相当于180年的游戏经验学会了团队配合、资源管理、甚至“诱敌深入”这类高级战术。AlphaStar在《星际争霸2》里达到了宗师级别。它学会了如何运营经济、如何侦查对手、如何在大规模战斗中调度单位。这些能力恰恰是现实世界中很多复杂决策问题的缩影。作用二机器人控制——从实验室走向工厂波士顿动力的机器人能跑能跳能后空翻背后离不开强化学习的贡献。传统机器人是靠“编程”控制的——工程师手写代码告诉机器人每个关节怎么动。但手写代码永远无法覆盖所有情况。强化学习的思路是让机器人自己去试。摔倒了自己爬起来走不稳自己调整重心。几千次几万次尝试之后机器人自己“长”出了一套行走的肌肉记忆。工业场景里强化学习已经在做机械臂抓取不规则物体、仓库机器人路径规划、无人机编队飞行。这些任务的特点是“动态变化”——你没法提前写好所有规则只能让机器人在实践中学习。作用三自动驾驶——最有价值的战场自动驾驶本质上是一个巨大的强化学习问题。车辆做出一个决策——加速、刹车、变道、转弯——环境会给出反馈安全到达、还是差点撞了。但这个“奖励”往往延迟得很厉害你变道超车这个动作可能10分钟后才会导致一次险情。强化学习天然擅长处理这种“延迟奖励”问题。特斯拉、Waymo等公司都在用强化学习训练决策模块。不只是简单的“保持车道”而是处理复杂的交互场景路口博弈、加塞与防加塞、行人的意图预测。这些场景没法用“规则”穷举只能用强化学习从大量驾驶数据中学习。作用四推荐系统——你每天都在用你可能不知道但强化学习已经在影响你每天看到的推荐内容。传统推荐系统是“贪心”的——用户点击了什么就推荐更多类似的。但这种策略短期收益高长期却可能让用户厌倦。强化学习的目标是“长期累积奖励”——它不仅要考虑“用户现在点不点”还要考虑“用户明天还用不用这个App”。抖音、快手、淘宝的推荐系统里都在尝试用强化学习来优化“长期用户留存”。它像一个聪明的运营知道什么时候该推荐你喜欢的利用什么时候该给你换换口味探索让你不知不觉就刷了两个小时。作用五大语言模型中的RLHF——ChatGPT的最后一公里GPT这类大语言模型是怎么变成“听话的助手”的光靠有监督学习不够——人类标注的“理想回答”数量有限模型学到的只是“模仿标注者”而不是“理解用户需要什么”。OpenAI用了一个叫RLHF从人类反馈中强化学习 的方法。流程是这样的先让模型生成很多回答人类标注员给这些回答打分——哪个回答更好哪个回答不好。再用这些打分数据训练一个“奖励模型”——它学会了“什么样的回答是人类喜欢的”。最后用强化学习去微调大模型目标是让模型生成的回答获得尽可能高的“奖励分”。这就是ChatGPT之所以“好用”的秘密武器。它不仅仅是“学会了说话”而是“学会了说什么话能让人满意”。RLHF把大语言模型从一个“会说话的AI”变成了一个“会好好说话的AI”。那个被打才知道疼的熊孩子最后怎么样了回到上篇开头的那个比喻。那个被丢进陌生房间的熊孩子。一开始他什么都怕什么都试撞了无数次墙挨了无数次电击。但他有一个优点他记住了每一次疼痛和每一次奖励。慢慢地他不再撞墙了。他知道哪里可以拿到高分哪里是死路。他开始规划路径——先往左走三步再往前两步按下按钮然后迅速退回安全区。他从一个只会乱撞的莽夫变成了一个深谙规则的策略家。最后他走出了房间。门打开的那一刻外面的老师惊讶地发现——这个学生不仅活着出来了还拿了全场的最高分。这就是强化学习的全部故事。它不是为了模仿人类而生的不是为了分析数据而生的。它是为了在复杂世界里做出一连串正确决策而生的。它不需要老师的教导不需要标准答案它只需要一个记分牌和一颗“试错一万次也不放弃”的心。从下棋赢过人类到机器人学会后空翻再到让ChatGPT学会好好说话——强化学习一直在做同一件事在混沌中摸索规律在失败中积累经验在长期的博弈里找到那条通向最大奖励的路径。