这项由华东师范大学数据科学与工程学院与美团龙猫团队联合开展的研究于2026年5月以预印本形式发布在arXiv平台论文编号为arXiv:2605.28424。研究提出了名为Skill0.5的新型智能体强化学习框架旨在解决AI智能体在面对从未见过的新任务时表现急剧下滑的痼疾。**一、从一个让人头疼的老问题说起**假设你新入职了一家公司公司给你发了一本厚厚的操作手册上面写满了各种规则和流程。第一天工作时你把手册摆在桌上遇到问题翻手册——这倒还好用。但如果手册越来越厚里面的内容越来越杂你翻着翻着就糊涂了不知道该执行哪一条。另一种情况是公司让你把手册上的内容全背下来之后就把手册收走了。你确实把那些流程刻进了脑子工作起来得心应手。但某天你被调到一个新部门业务逻辑完全不同——而你脑子里全是老部门的习惯新规则摆在你面前你偏偏按着老习惯来结果一团糟。这两种困境精确地对应了当下AI智能体领域里两条主流训练路线的问题。AI研究者们长期以来在这两条路之间左右为难而华东师大与美团联合团队的这项研究给出了一个迥然不同的第三条路。在正式理解这条新路之前有必要先搞清楚这里说的AI智能体到底是什么。简单说就是一个能够与环境交互、自主做出决策的AI系统——比如一个能在虚拟家居环境里帮你找东西、拿东西、加热食物的机器人或者一个能在网上购物平台里帮你搜索商品、筛选选项、完成购买的购物助手。为了让这些智能体做得更好研究者们会给它们配备一套技能手册里面写着各种操作规则和经验总结。**二、技能手册的两种极端用法以及它们各自的麻烦**沿着把手册摆桌上这条路走下去就是学术界所说的完全外置化策略。智能体每次工作时都把完整的技能手册塞进自己的上下文窗口可以理解为工作记忆边看手册边干活。这种方法的直接问题是手册太长了。当一个AI系统的注意力同时被几千个词的手册内容占据时它处理实际任务的能力会大幅下降。麻省理工学院早期的研究就发现语言模型在面对特别长的上下文时往往会遗失中间部分的内容也就是说手册越厚它反而越记不住关键的地方。对于需要做十几步甚至几十步连续操作的复杂任务这个问题尤为致命。另一条路也就是完全内置化策略则要求智能体通过大量训练把手册上的所有内容都消化进自己的神经网络参数里。训练结束后手册就可以彻底扔掉智能体凭借内化的知识独立行事。这条路的问题出在遇到新情况时。现实世界里技能手册的内容会不断更新——新的任务域会带来全新的操作规则这些规则在训练时根本不存在。当智能体遇到一条和它内化知识相矛盾的新规则时它往往无法正确执行新规则反而会按着老习惯行动。这就是研究者所说的知识冲突——脑子里刻着的旧程序干扰了对新指令的遵从。华东师大与美团团队发现这两种极端策略之所以都有问题根本原因在于它们没有区分对待两种性质截然不同的技能。**三、所有技能都一样吗——一个被忽视的关键区分**仔细想想那本操作手册里面的内容其实可以分成两类。一类是放之四海而皆准的通用原则比如完成任务前要逐项核对所有目标、出错后要先撤回上一步再重试——这些规则在任何部门、任何情境下都适用而且一旦学会了就很少需要更新但通常写得比较长、比较抽象。另一类是针对特定任务的具体操作规程比如操作微波炉时先放入物品再执行加热指令——这类规则高度具体不同任务域之间差异巨大而且会随着新业务的上线不断扩充。研究团队给这两类技能起了名字第一类叫通用技能第二类叫特定技能。他们的核心论断是这两类技能需要完全不同的处理方式。通用技能篇幅长、使用频繁、内容稳定最好的处置方式是通过训练把它们彻底内化进智能体的本能这样既省去了每次工作时塞进上下文的空间开销也避免了它们与任何新任务规则发生冲突特定技能则恰恰相反——它们变化快、域间差异大而且在面对全新任务时恰好是智能体最需要参考的现成指引因此应该保持随取随用的外置状态随着任务的不同动态替换。这个区分听起来简单但正是从这里出发研究团队构建了整个Skill0.5框架。**四、Skill0.5框架像培训新员工一样训练AI**Skill0.5这个名字颇有趣味——介于完全外置可以理解为Skill1手册全在桌上和完全内置可以理解为Skill0手册全在脑里之间它代表了一种折中但精准的处理方式一半内化一半外用。框架的整体运作方式可以用培训新员工的比喻来理解。一家公司有一批老员工和一批新任务。每到一个训练周期公司会先评估每个员工对手头任务的掌握程度再根据掌握程度给出不同的训练安排。完全不会的就送去接受系统性的思维方法培训有点基础但还不熟练的就继续在实践中摸索已经熟练的则要接受特殊的防偷懒测试确保他们真的是用了正确方法在做事而不是靠走捷径凑出了表面上的好成绩。具体到Skill0.5的训练流程分为两个阶段串联运行。第一阶段叫难度感知路由。在每个训练步骤里对于批次中的每个任务系统都会让智能体在仅携带特定技能不带通用技能的条件下独立尝试完成任务若干次统计它的成功率。随后系统根据这个成功率把任务分进三个层次成功率为零的划入困难层成功率高于一个动态计算的阈值的划入简单层介于两者之间的划入中等层。这个动态阈值不是拍脑袋定的而是通过一个滑动窗口机制取最近若干个训练步骤里全部任务平均成功率的均值这样能更稳健地反映智能体的整体水准不会因为某一批任务特别难或特别简单而失真。第二阶段叫分层定制优化。针对三个层次的任务系统分别采用完全不同的训练信号。对于困难层的任务智能体暴露出的是最根本的能力缺失——连基本的环境交互逻辑都没掌握。这时候单纯靠让它自己试错是没有用的因为它怎么试都是零分没有任何梯度信号可以用来改进。为了打破这个死局系统引入了一个教师智能体——这个教师和学生用的是同一个模型但它在工作时被赋予了完整的通用技能作为辅助。教师在通用技能的加持下完成任务产生成功的轨迹然后系统让学生不带通用技能去模仿教师的每一步推理过程。具体的技术手段是计算学生和教师在每个推理步骤上的概率分布差异优化目标是让学生的行为分布尽可能贴近教师——但整个过程里通用技能始终只存在于教师的上下文里学生从未在显式上下文中看到它们却在不断模仿中把这些思维方式吸收进了自己的参数。这个过程被称为特权蒸馏因为教师拥有学生没有的特权信息而蒸馏的目标正是把这份特权内化到学生的本能里。对于中等层的任务智能体有一定基础但尚未稳定最好的训练方式就是标准的强化学习让它多次尝试成功了给正向激励失败了不给奖励通过奖励信号引导它逐渐找到更好的策略。这里采用的是一种叫GRPO的算法原理是每次对同一个任务采样多条轨迹然后比较这几条轨迹的相对好坏来计算优势信号。没有复杂的改造直接复用了第一阶段收集的轨迹数据非常高效。对于简单层的任务情况反而最微妙。随着训练推进那些对智能体来说越来越容易的任务恰恰是最危险的训练陷阱所在。当一个任务变得太简单智能体很容易学会一种偷懒方式直接把任务指令和动作之间建立一个死记硬背的映射完全绕开特定技能的指引凭借记忆里的老套路就能凑出正确答案。这种行为被称为走捷径在训练集上看起来成绩还不错但一旦换成从未见过的新任务那些捷径全部失效智能体立刻崩溃。为了识别并惩罚这种走捷径的行为系统引入了一个诊断探针专门对简单层的任务在不给任何技能提示的条件下再跑一批轨迹统计裸奔状态下的成功率。然后把有特定技能时的成功率减去没有技能时的成功率得到一个技能利用增益。这个增益越大说明特定技能对成功的贡献越大智能体越是真实地在利用外部技能增益越小甚至趋近于零则暴露出智能体实际上在走捷径。系统把这个增益转化为一个额外的优势项叠加到强化学习的奖励信号上——增益高的任务会得到额外的正向强化增益低的则会受到压制从整体上引导智能体养成真正依赖技能、而非绕过技能的行为模式。三条优化路径的损失函数最终被加总共同更新同一个智能体模型的参数。由于每个任务只能落入一个层次三条路径的梯度信号天然互不干扰整个训练过程干净而有序。**五、测试战场两个截然不同的挑战环境**为了验证框架的实际效果研究团队在两个公认的智能体基准环境上展开了系统性测试并且特别设计了一种更贴近真实部署场景的评测协议。第一个环境叫ALFWorld是一个文字版的家居任务模拟器。智能体需要通过自然语言指令完成各种家务——比如把特定物品放进微波炉加热或者在台灯下检视某件物品。这个环境包含六种任务类型研究团队把其中三种拿取、冷却、清洁作为训练和同分布测试的任务另外三种查看、加热、多次拿取作为分布外测试的任务智能体在整个训练过程中完全看不到后三类任务的任何样本。第二个环境叫WebShop是一个模拟网络购物的环境。智能体需要根据用户的购物需求在一个有12087件商品的虚拟商城里搜索、筛选、下单。研究团队把商品分成七个品类其中服装、电子产品、鞋类、其他品类作为训练类别配饰、美妆健康、家居装饰三个品类作为分布外测试类别——后三个品类的商品属性词汇和匹配逻辑与训练类别有显著差异。这种训练时看不到OOD任务测试时专门考OOD任务的设计模拟的正是现实部署中最常见也最棘手的场景用户总在上传新的任务类型技能手册也在不断扩充但智能体没有机会为每一类新任务专门训练。在这种设定下技能的泛化能力才是真正的核心竞争力。测试中所有方法在进行同分布评测时使用对应的已知技能在分布外评测时使用全新的未见技能——每种方法都按照自己的设计逻辑决定在推理时携带哪些技能。Skill0.5的做法是推理时完全不携带通用技能因为已经内化只携带针对当前任务检索到的特定技能无论这些特定技能是已知的还是全新的。**六、比赛结果数字背后的故事**研究团队一共比较了超过二十种方法涵盖纯提示类方法、记忆增强类方法、强化学习类方法以及与Skill0.5最直接竞争的技能增强强化学习类方法。在ALFWorld的同分布测试中Skill0.5以93.1%的平均成功率位居第一比最强的技能增强基准SkillRL90.8%高出2.3个百分点。这个提升看起来不算大但考虑到同分布测试本来就是各方法的主场这个差距已经相当可观。在分布外测试中Skill0.5的优势急剧扩大它以58.5%的平均成功率领跑而SkillRL只有45.3%差距高达13.2个百分点。另一个采用完全内置化策略的竞争对手SKILL0在分布外测试中只有39.6%与Skill0.5差了接近19个百分点。采用动态技能生命周期管理的SLIM则为35.8%差距更大。在WebShop上Skill0.5同样以40.4%同分布和40.6%分布外的成绩领先所有方法在分布外场景中比最强基准高出约4个百分点。纯粹依赖上下文提示的方法比如ReAct、Reflexion与Skill0.5的差距超过45%这进一步证明仅靠把技能塞进提示词而不经过针对性训练远远无法让智能体真正发挥技能的价值。记忆增强类方法通过存储过去的任务经历来辅助决策虽然在某些配置下表现尚可但普遍不如技能增强类方法——研究团队分析认为原始的经历记录通常包含太多噪音和冗余而经过提炼的技能知识则更加精练、可迁移。**七、训练过程的曲线讲述了一个完整的学习故事**如果把训练过程中各方法的成功率曲线画出来会看到一幅颇为有趣的图景。在训练的早期阶段Skill0.5表现出异常快速的初始提升。这是特权蒸馏机制在发挥作用——困难层任务占据了绝大多数通过教师-学生的蒸馏机制提供了源源不断的梯度信号绕过了普通强化学习在全零回报情况下梯度完全消失的死局推动智能体迅速建立起基本的推理能力。进入训练中期随着困难任务减少、简单任务增多Skill0.5的曲线继续稳定上升。相比之下SkillRL在训练集和同分布验证集上的成功率也在攀升但其分布外验证集的曲线在后期出现了明显的下滑——这是走捷径行为导致泛化能力衰退的典型特征。SKILL0则在整个训练过程中分布外成绩始终被压制在较低水平因为一个完全内化了旧域知识的模型面对全新任务时只会按老习惯办事。SLIM由于其生命周期机制过早地把通用技能从上下文中退出导致后期训练出现剧烈振荡最终在分布外场景中严重失稳。Skill0.5在分布外测试上的曲线则始终保持稳定的上升趋势没有出现任何下滑的迹象一直到训练结束仍然在提升这正是反走捷径机制持续守护泛化能力的结果。**八、拆开来看每个组件到底贡献了多少**为了搞清楚特权蒸馏和反走捷径两个组件各自的功劳研究团队做了消融实验——每次去掉其中一个只保留另一个看看成绩会怎么变。只保留特权蒸馏、去掉反走捷径的版本在同分布测试中得到89.6%分布外测试得到52.8%比完整版的93.1%和58.5%分别低了3.5和5.7个百分点。这说明两个组件都有贡献但去掉反走捷径的代价在分布外场景下更为显著。只保留反走捷径、去掉特权蒸馏的版本结果更为惨烈同分布测试85.1%分布外测试50.9%与完整版的差距超过了8个百分点。研究团队的解释是如果智能体从来没有通过蒸馏建立起基本的推理能力那么所谓的反走捷径惩罚根本无从发挥——因为即使给了特定技能智能体也不会做对不给特定技能它同样不会做对。两者的成功率差异接近于零用来识别和惩罚走捷径行为的信号就完全消失了训练陷入停滞。这个结果揭示了两个组件之间的内在依赖关系内化通用技能是前提条件只有在建立起扎实的基础推理能力之后依赖特定技能的利用才有意义而在基础能力建立之后如果缺少对走捷径行为的明确约束智能体终究会在反复练习中退化为模式匹配机器失去真正灵活利用新技能的能力。**九、三个失败案例解剖三种思路的死穴**研究团队还在ALFWorld的分布外任务上做了详细的轨迹分析给每种基准方法各找了一个具有代表性的失败案例。以SkillRL的一个失败案例为例。任务是把一个热土豆放进冰箱。SkillRL给智能体的上下文里塞进了大约1617个词的内容其中包含通用原则、常见错误提示以及对应这个新任务的特定技能说的是加热后直接走到目标位置放好就行。然而智能体在加热完土豆、顺利走到冰箱旁之后执行的下一个动作是用冰箱冷却土豆——这和任务目标以及特定技能的明确指令都完全矛盾。分析智能体的推理轨迹发现它大脑里的思路是要先冷却再放进去——这是在训练集的冷却任务中反复强化的关联冰箱等于冷却操作。大量通用文字内容稀释了特定技能的权重使得正确的新指令被淹没在了老经验里。Skill0.5在同一个任务上上下文里只有214个词的特定技能内容通用技能已经被内化。它顺利地加热土豆、走到冰箱、打开冰箱、把土豆放进去全程7步完成推理链里甚至明确写出加热完了下一步是把热土豆放进冰箱——没有任何关于冷却的干扰。SKILL0的失败案例则是另一种死法。任务是用台灯检查那个碗。SKILL0给智能体提供了一条特定技能到达台灯处后立刻执行use desklamp命令。智能体的推理文字里甚至引用了这条技能说根据单次开关规则...然后下一步动作是走到边桌、试图把碗放到边桌上——这是训练集里拿取放置任务的标准操作模板。接下来它反复试图捡起台灯把台灯当成可以携带的物品失败三次。明确的文字指令就在上下文里但内化在参数里的旧操作模板强行覆盖了对新指令的执行这就是知识冲突——而且是在推理时无法修复的那种。SLIM的失败案例又是第三种形态。在训练到第85步时它在用台灯检查枕头这个任务上还能成功。但到第120步同类任务的轨迹已经面目全非推理文字在讨论如何找一张CD任务明明是枕头行动指令则走向了床推理里说的是冰箱。同样的退化模板出现在五个完全不同的任务里几乎逐字相同。SLIM在训练第5步就以效用接近于零为由退休了系统性探索这条通用技能截至第50步已经有三分之二的通用技能被退休。失去了这些思维框架的支撑智能体在后续持续训练中逐渐解体了基本的任务理解能力。这三个案例就像三张不同的X光片清晰地揭示了三种统一化技能处理策略在分布外场景中的特征性死穴。Skill0.5通过类型分化的处理方式把这三种死穴都从设计上规避了。---说到底Skill0.5这项研究解决的是一个非常具体但影响深远的工程问题当你训练一个AI智能体来完成复杂任务时如何让它在掌握通用推理能力的同时还能灵活地遵从面对新任务时的专属指引研究团队给出的答案本质上是一套认知分工的训练机制——把稳定的思维框架固化到神经网络的参数里同时维持对动态任务规则的真实依赖并通过实时的难度感知来确保这两种训练信号都落在最有效的地方。对于普通人而言这项研究意味着未来你家里的智能家居助手或者购物AI在遇到一类全新的任务时不再需要漫长的重新训练只需要接收一份新的任务说明书就能高效地把新规则付诸实践——而不是用老经验覆盖新指令或者被大量无关信息淹没。一个有趣的思考方向是人类其实也在进行类似的认知分工。那些经过大量实践内化的通用思维方法比如批判性思考、系统性分解问题和那些需要在特定场合随时查阅更新的专业规程比如新药的使用说明、新设备的操作手册在人类的学习策略里本来就是分开处理的。或许好的AI训练框架终究需要在某种程度上模仿人类认知系统演化出的这套机制。有兴趣深入了解技术细节的读者可以通过arXiv编号2605.28424查询完整论文。---**QA**Q1Skill0.5训练出来的智能体在面对全新任务时具体是怎么工作的A推理时Skill0.5的智能体不携带任何通用技能它们已经被内化进参数只从技能库中检索与当前新任务最相关的特定技能放入上下文。通用推理能力来自训练时的蒸馏特定操作规则来自动态检索的外部技能两者共同驱动决策。Q2特权蒸馏和普通的知识蒸馏有什么区别A普通知识蒸馏通常是用一个更大的模型教一个更小的模型教学内容是一样的。特权蒸馏里教师和学生用的是同一个模型区别在于教师拥有学生没有的额外信息通用技能提示目的是让学生在没有这份信息的条件下学会模拟有了这份信息时才能产生的推理行为本质上是把上下文依赖转化为参数能力。Q3反走捷径的利用增益怎么判断智能体是否真的在用技能A系统分别测量智能体在有特定技能提示和无任何技能提示两种条件下的成功率两者相减得到利用增益。如果差值大说明技能对成功起了实质贡献如果差值趋近于零甚至为负说明智能体即使没有技能也一样甚至更好暴露出它在走捷径绕过技能。这个差值随后被转化为训练信号走捷径的任务会受到梯度层面的压制。
华东师范与美团龙猫团队联手:让AI智能体“学以致用“的训练新方法
发布时间:2026/6/4 2:10:28
这项由华东师范大学数据科学与工程学院与美团龙猫团队联合开展的研究于2026年5月以预印本形式发布在arXiv平台论文编号为arXiv:2605.28424。研究提出了名为Skill0.5的新型智能体强化学习框架旨在解决AI智能体在面对从未见过的新任务时表现急剧下滑的痼疾。**一、从一个让人头疼的老问题说起**假设你新入职了一家公司公司给你发了一本厚厚的操作手册上面写满了各种规则和流程。第一天工作时你把手册摆在桌上遇到问题翻手册——这倒还好用。但如果手册越来越厚里面的内容越来越杂你翻着翻着就糊涂了不知道该执行哪一条。另一种情况是公司让你把手册上的内容全背下来之后就把手册收走了。你确实把那些流程刻进了脑子工作起来得心应手。但某天你被调到一个新部门业务逻辑完全不同——而你脑子里全是老部门的习惯新规则摆在你面前你偏偏按着老习惯来结果一团糟。这两种困境精确地对应了当下AI智能体领域里两条主流训练路线的问题。AI研究者们长期以来在这两条路之间左右为难而华东师大与美团联合团队的这项研究给出了一个迥然不同的第三条路。在正式理解这条新路之前有必要先搞清楚这里说的AI智能体到底是什么。简单说就是一个能够与环境交互、自主做出决策的AI系统——比如一个能在虚拟家居环境里帮你找东西、拿东西、加热食物的机器人或者一个能在网上购物平台里帮你搜索商品、筛选选项、完成购买的购物助手。为了让这些智能体做得更好研究者们会给它们配备一套技能手册里面写着各种操作规则和经验总结。**二、技能手册的两种极端用法以及它们各自的麻烦**沿着把手册摆桌上这条路走下去就是学术界所说的完全外置化策略。智能体每次工作时都把完整的技能手册塞进自己的上下文窗口可以理解为工作记忆边看手册边干活。这种方法的直接问题是手册太长了。当一个AI系统的注意力同时被几千个词的手册内容占据时它处理实际任务的能力会大幅下降。麻省理工学院早期的研究就发现语言模型在面对特别长的上下文时往往会遗失中间部分的内容也就是说手册越厚它反而越记不住关键的地方。对于需要做十几步甚至几十步连续操作的复杂任务这个问题尤为致命。另一条路也就是完全内置化策略则要求智能体通过大量训练把手册上的所有内容都消化进自己的神经网络参数里。训练结束后手册就可以彻底扔掉智能体凭借内化的知识独立行事。这条路的问题出在遇到新情况时。现实世界里技能手册的内容会不断更新——新的任务域会带来全新的操作规则这些规则在训练时根本不存在。当智能体遇到一条和它内化知识相矛盾的新规则时它往往无法正确执行新规则反而会按着老习惯行动。这就是研究者所说的知识冲突——脑子里刻着的旧程序干扰了对新指令的遵从。华东师大与美团团队发现这两种极端策略之所以都有问题根本原因在于它们没有区分对待两种性质截然不同的技能。**三、所有技能都一样吗——一个被忽视的关键区分**仔细想想那本操作手册里面的内容其实可以分成两类。一类是放之四海而皆准的通用原则比如完成任务前要逐项核对所有目标、出错后要先撤回上一步再重试——这些规则在任何部门、任何情境下都适用而且一旦学会了就很少需要更新但通常写得比较长、比较抽象。另一类是针对特定任务的具体操作规程比如操作微波炉时先放入物品再执行加热指令——这类规则高度具体不同任务域之间差异巨大而且会随着新业务的上线不断扩充。研究团队给这两类技能起了名字第一类叫通用技能第二类叫特定技能。他们的核心论断是这两类技能需要完全不同的处理方式。通用技能篇幅长、使用频繁、内容稳定最好的处置方式是通过训练把它们彻底内化进智能体的本能这样既省去了每次工作时塞进上下文的空间开销也避免了它们与任何新任务规则发生冲突特定技能则恰恰相反——它们变化快、域间差异大而且在面对全新任务时恰好是智能体最需要参考的现成指引因此应该保持随取随用的外置状态随着任务的不同动态替换。这个区分听起来简单但正是从这里出发研究团队构建了整个Skill0.5框架。**四、Skill0.5框架像培训新员工一样训练AI**Skill0.5这个名字颇有趣味——介于完全外置可以理解为Skill1手册全在桌上和完全内置可以理解为Skill0手册全在脑里之间它代表了一种折中但精准的处理方式一半内化一半外用。框架的整体运作方式可以用培训新员工的比喻来理解。一家公司有一批老员工和一批新任务。每到一个训练周期公司会先评估每个员工对手头任务的掌握程度再根据掌握程度给出不同的训练安排。完全不会的就送去接受系统性的思维方法培训有点基础但还不熟练的就继续在实践中摸索已经熟练的则要接受特殊的防偷懒测试确保他们真的是用了正确方法在做事而不是靠走捷径凑出了表面上的好成绩。具体到Skill0.5的训练流程分为两个阶段串联运行。第一阶段叫难度感知路由。在每个训练步骤里对于批次中的每个任务系统都会让智能体在仅携带特定技能不带通用技能的条件下独立尝试完成任务若干次统计它的成功率。随后系统根据这个成功率把任务分进三个层次成功率为零的划入困难层成功率高于一个动态计算的阈值的划入简单层介于两者之间的划入中等层。这个动态阈值不是拍脑袋定的而是通过一个滑动窗口机制取最近若干个训练步骤里全部任务平均成功率的均值这样能更稳健地反映智能体的整体水准不会因为某一批任务特别难或特别简单而失真。第二阶段叫分层定制优化。针对三个层次的任务系统分别采用完全不同的训练信号。对于困难层的任务智能体暴露出的是最根本的能力缺失——连基本的环境交互逻辑都没掌握。这时候单纯靠让它自己试错是没有用的因为它怎么试都是零分没有任何梯度信号可以用来改进。为了打破这个死局系统引入了一个教师智能体——这个教师和学生用的是同一个模型但它在工作时被赋予了完整的通用技能作为辅助。教师在通用技能的加持下完成任务产生成功的轨迹然后系统让学生不带通用技能去模仿教师的每一步推理过程。具体的技术手段是计算学生和教师在每个推理步骤上的概率分布差异优化目标是让学生的行为分布尽可能贴近教师——但整个过程里通用技能始终只存在于教师的上下文里学生从未在显式上下文中看到它们却在不断模仿中把这些思维方式吸收进了自己的参数。这个过程被称为特权蒸馏因为教师拥有学生没有的特权信息而蒸馏的目标正是把这份特权内化到学生的本能里。对于中等层的任务智能体有一定基础但尚未稳定最好的训练方式就是标准的强化学习让它多次尝试成功了给正向激励失败了不给奖励通过奖励信号引导它逐渐找到更好的策略。这里采用的是一种叫GRPO的算法原理是每次对同一个任务采样多条轨迹然后比较这几条轨迹的相对好坏来计算优势信号。没有复杂的改造直接复用了第一阶段收集的轨迹数据非常高效。对于简单层的任务情况反而最微妙。随着训练推进那些对智能体来说越来越容易的任务恰恰是最危险的训练陷阱所在。当一个任务变得太简单智能体很容易学会一种偷懒方式直接把任务指令和动作之间建立一个死记硬背的映射完全绕开特定技能的指引凭借记忆里的老套路就能凑出正确答案。这种行为被称为走捷径在训练集上看起来成绩还不错但一旦换成从未见过的新任务那些捷径全部失效智能体立刻崩溃。为了识别并惩罚这种走捷径的行为系统引入了一个诊断探针专门对简单层的任务在不给任何技能提示的条件下再跑一批轨迹统计裸奔状态下的成功率。然后把有特定技能时的成功率减去没有技能时的成功率得到一个技能利用增益。这个增益越大说明特定技能对成功的贡献越大智能体越是真实地在利用外部技能增益越小甚至趋近于零则暴露出智能体实际上在走捷径。系统把这个增益转化为一个额外的优势项叠加到强化学习的奖励信号上——增益高的任务会得到额外的正向强化增益低的则会受到压制从整体上引导智能体养成真正依赖技能、而非绕过技能的行为模式。三条优化路径的损失函数最终被加总共同更新同一个智能体模型的参数。由于每个任务只能落入一个层次三条路径的梯度信号天然互不干扰整个训练过程干净而有序。**五、测试战场两个截然不同的挑战环境**为了验证框架的实际效果研究团队在两个公认的智能体基准环境上展开了系统性测试并且特别设计了一种更贴近真实部署场景的评测协议。第一个环境叫ALFWorld是一个文字版的家居任务模拟器。智能体需要通过自然语言指令完成各种家务——比如把特定物品放进微波炉加热或者在台灯下检视某件物品。这个环境包含六种任务类型研究团队把其中三种拿取、冷却、清洁作为训练和同分布测试的任务另外三种查看、加热、多次拿取作为分布外测试的任务智能体在整个训练过程中完全看不到后三类任务的任何样本。第二个环境叫WebShop是一个模拟网络购物的环境。智能体需要根据用户的购物需求在一个有12087件商品的虚拟商城里搜索、筛选、下单。研究团队把商品分成七个品类其中服装、电子产品、鞋类、其他品类作为训练类别配饰、美妆健康、家居装饰三个品类作为分布外测试类别——后三个品类的商品属性词汇和匹配逻辑与训练类别有显著差异。这种训练时看不到OOD任务测试时专门考OOD任务的设计模拟的正是现实部署中最常见也最棘手的场景用户总在上传新的任务类型技能手册也在不断扩充但智能体没有机会为每一类新任务专门训练。在这种设定下技能的泛化能力才是真正的核心竞争力。测试中所有方法在进行同分布评测时使用对应的已知技能在分布外评测时使用全新的未见技能——每种方法都按照自己的设计逻辑决定在推理时携带哪些技能。Skill0.5的做法是推理时完全不携带通用技能因为已经内化只携带针对当前任务检索到的特定技能无论这些特定技能是已知的还是全新的。**六、比赛结果数字背后的故事**研究团队一共比较了超过二十种方法涵盖纯提示类方法、记忆增强类方法、强化学习类方法以及与Skill0.5最直接竞争的技能增强强化学习类方法。在ALFWorld的同分布测试中Skill0.5以93.1%的平均成功率位居第一比最强的技能增强基准SkillRL90.8%高出2.3个百分点。这个提升看起来不算大但考虑到同分布测试本来就是各方法的主场这个差距已经相当可观。在分布外测试中Skill0.5的优势急剧扩大它以58.5%的平均成功率领跑而SkillRL只有45.3%差距高达13.2个百分点。另一个采用完全内置化策略的竞争对手SKILL0在分布外测试中只有39.6%与Skill0.5差了接近19个百分点。采用动态技能生命周期管理的SLIM则为35.8%差距更大。在WebShop上Skill0.5同样以40.4%同分布和40.6%分布外的成绩领先所有方法在分布外场景中比最强基准高出约4个百分点。纯粹依赖上下文提示的方法比如ReAct、Reflexion与Skill0.5的差距超过45%这进一步证明仅靠把技能塞进提示词而不经过针对性训练远远无法让智能体真正发挥技能的价值。记忆增强类方法通过存储过去的任务经历来辅助决策虽然在某些配置下表现尚可但普遍不如技能增强类方法——研究团队分析认为原始的经历记录通常包含太多噪音和冗余而经过提炼的技能知识则更加精练、可迁移。**七、训练过程的曲线讲述了一个完整的学习故事**如果把训练过程中各方法的成功率曲线画出来会看到一幅颇为有趣的图景。在训练的早期阶段Skill0.5表现出异常快速的初始提升。这是特权蒸馏机制在发挥作用——困难层任务占据了绝大多数通过教师-学生的蒸馏机制提供了源源不断的梯度信号绕过了普通强化学习在全零回报情况下梯度完全消失的死局推动智能体迅速建立起基本的推理能力。进入训练中期随着困难任务减少、简单任务增多Skill0.5的曲线继续稳定上升。相比之下SkillRL在训练集和同分布验证集上的成功率也在攀升但其分布外验证集的曲线在后期出现了明显的下滑——这是走捷径行为导致泛化能力衰退的典型特征。SKILL0则在整个训练过程中分布外成绩始终被压制在较低水平因为一个完全内化了旧域知识的模型面对全新任务时只会按老习惯办事。SLIM由于其生命周期机制过早地把通用技能从上下文中退出导致后期训练出现剧烈振荡最终在分布外场景中严重失稳。Skill0.5在分布外测试上的曲线则始终保持稳定的上升趋势没有出现任何下滑的迹象一直到训练结束仍然在提升这正是反走捷径机制持续守护泛化能力的结果。**八、拆开来看每个组件到底贡献了多少**为了搞清楚特权蒸馏和反走捷径两个组件各自的功劳研究团队做了消融实验——每次去掉其中一个只保留另一个看看成绩会怎么变。只保留特权蒸馏、去掉反走捷径的版本在同分布测试中得到89.6%分布外测试得到52.8%比完整版的93.1%和58.5%分别低了3.5和5.7个百分点。这说明两个组件都有贡献但去掉反走捷径的代价在分布外场景下更为显著。只保留反走捷径、去掉特权蒸馏的版本结果更为惨烈同分布测试85.1%分布外测试50.9%与完整版的差距超过了8个百分点。研究团队的解释是如果智能体从来没有通过蒸馏建立起基本的推理能力那么所谓的反走捷径惩罚根本无从发挥——因为即使给了特定技能智能体也不会做对不给特定技能它同样不会做对。两者的成功率差异接近于零用来识别和惩罚走捷径行为的信号就完全消失了训练陷入停滞。这个结果揭示了两个组件之间的内在依赖关系内化通用技能是前提条件只有在建立起扎实的基础推理能力之后依赖特定技能的利用才有意义而在基础能力建立之后如果缺少对走捷径行为的明确约束智能体终究会在反复练习中退化为模式匹配机器失去真正灵活利用新技能的能力。**九、三个失败案例解剖三种思路的死穴**研究团队还在ALFWorld的分布外任务上做了详细的轨迹分析给每种基准方法各找了一个具有代表性的失败案例。以SkillRL的一个失败案例为例。任务是把一个热土豆放进冰箱。SkillRL给智能体的上下文里塞进了大约1617个词的内容其中包含通用原则、常见错误提示以及对应这个新任务的特定技能说的是加热后直接走到目标位置放好就行。然而智能体在加热完土豆、顺利走到冰箱旁之后执行的下一个动作是用冰箱冷却土豆——这和任务目标以及特定技能的明确指令都完全矛盾。分析智能体的推理轨迹发现它大脑里的思路是要先冷却再放进去——这是在训练集的冷却任务中反复强化的关联冰箱等于冷却操作。大量通用文字内容稀释了特定技能的权重使得正确的新指令被淹没在了老经验里。Skill0.5在同一个任务上上下文里只有214个词的特定技能内容通用技能已经被内化。它顺利地加热土豆、走到冰箱、打开冰箱、把土豆放进去全程7步完成推理链里甚至明确写出加热完了下一步是把热土豆放进冰箱——没有任何关于冷却的干扰。SKILL0的失败案例则是另一种死法。任务是用台灯检查那个碗。SKILL0给智能体提供了一条特定技能到达台灯处后立刻执行use desklamp命令。智能体的推理文字里甚至引用了这条技能说根据单次开关规则...然后下一步动作是走到边桌、试图把碗放到边桌上——这是训练集里拿取放置任务的标准操作模板。接下来它反复试图捡起台灯把台灯当成可以携带的物品失败三次。明确的文字指令就在上下文里但内化在参数里的旧操作模板强行覆盖了对新指令的执行这就是知识冲突——而且是在推理时无法修复的那种。SLIM的失败案例又是第三种形态。在训练到第85步时它在用台灯检查枕头这个任务上还能成功。但到第120步同类任务的轨迹已经面目全非推理文字在讨论如何找一张CD任务明明是枕头行动指令则走向了床推理里说的是冰箱。同样的退化模板出现在五个完全不同的任务里几乎逐字相同。SLIM在训练第5步就以效用接近于零为由退休了系统性探索这条通用技能截至第50步已经有三分之二的通用技能被退休。失去了这些思维框架的支撑智能体在后续持续训练中逐渐解体了基本的任务理解能力。这三个案例就像三张不同的X光片清晰地揭示了三种统一化技能处理策略在分布外场景中的特征性死穴。Skill0.5通过类型分化的处理方式把这三种死穴都从设计上规避了。---说到底Skill0.5这项研究解决的是一个非常具体但影响深远的工程问题当你训练一个AI智能体来完成复杂任务时如何让它在掌握通用推理能力的同时还能灵活地遵从面对新任务时的专属指引研究团队给出的答案本质上是一套认知分工的训练机制——把稳定的思维框架固化到神经网络的参数里同时维持对动态任务规则的真实依赖并通过实时的难度感知来确保这两种训练信号都落在最有效的地方。对于普通人而言这项研究意味着未来你家里的智能家居助手或者购物AI在遇到一类全新的任务时不再需要漫长的重新训练只需要接收一份新的任务说明书就能高效地把新规则付诸实践——而不是用老经验覆盖新指令或者被大量无关信息淹没。一个有趣的思考方向是人类其实也在进行类似的认知分工。那些经过大量实践内化的通用思维方法比如批判性思考、系统性分解问题和那些需要在特定场合随时查阅更新的专业规程比如新药的使用说明、新设备的操作手册在人类的学习策略里本来就是分开处理的。或许好的AI训练框架终究需要在某种程度上模仿人类认知系统演化出的这套机制。有兴趣深入了解技术细节的读者可以通过arXiv编号2605.28424查询完整论文。---**QA**Q1Skill0.5训练出来的智能体在面对全新任务时具体是怎么工作的A推理时Skill0.5的智能体不携带任何通用技能它们已经被内化进参数只从技能库中检索与当前新任务最相关的特定技能放入上下文。通用推理能力来自训练时的蒸馏特定操作规则来自动态检索的外部技能两者共同驱动决策。Q2特权蒸馏和普通的知识蒸馏有什么区别A普通知识蒸馏通常是用一个更大的模型教一个更小的模型教学内容是一样的。特权蒸馏里教师和学生用的是同一个模型区别在于教师拥有学生没有的额外信息通用技能提示目的是让学生在没有这份信息的条件下学会模拟有了这份信息时才能产生的推理行为本质上是把上下文依赖转化为参数能力。Q3反走捷径的利用增益怎么判断智能体是否真的在用技能A系统分别测量智能体在有特定技能提示和无任何技能提示两种条件下的成功率两者相减得到利用增益。如果差值大说明技能对成功起了实质贡献如果差值趋近于零甚至为负说明智能体即使没有技能也一样甚至更好暴露出它在走捷径绕过技能。这个差值随后被转化为训练信号走捷径的任务会受到梯度层面的压制。