太强了美团连发了3篇Agent Skill技术论文Skill0Skill0.5Skill1先说一个反直觉的结论训练 Agent 用技能最危险的不是学不会而是学会了但走捷径——简单任务上模型绕过技能直接记忆答案到了新环境就彻底崩溃。而 Skill0.5 的解法用一个词概括就是“一半一半”。通用技能写进模型参数当底座任务技能留在 prompt 当插件。不二选一各管各的。Agent 技能训练的二选一困境给 Agent 装技能当前有两种做法全外挂Skill1所有技能都塞进 prompt。好处是灵活随时换技能。但 prompt 太长LLM 的推理和指令遵从能力骤降——特别是在长链路任务中模型容易迷失在中间。全内化SKILL0所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。这两种做法都假设所有技能用同一种方式处理。但这个假设未必都成立。Skill0.5 的方法难度分层 差异化训练Skill0.5 的核心是一个两阶段流程先按难度分班再因材施教。Phase-1难度感知路由对每个训练任务先用标准 prompt只有任务技能没有通用技能跑 G 次算通过率 p_ip_i 0完全做不了 →Hard 层0 p_i ≤ η_t有时能做 →Medium 层p_i η_t基本能做 →Easy 层阈值 η_t 是滑动窗口平均动态调整避免单批次噪声。Phase-2分层差异化训练Hard 层——特权蒸馏内化通用技能做不了任务 缺基础逻辑。给模型开小灶用特权 prompt通用技能 任务技能跑出正确轨迹然后用 JSD 蒸馏把通用技能教进参数。学生只看标准 prompt但要学会和老师有通用技能指导时一样的推理步骤。这样通用技能就内化到了参数里推理时不需要额外注入。Medium 层——标准 GRPO提升成功率有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习通过试错最大化成功率。Easy 层——反捷径探测强制使用任务技能这里是最精彩的设计。任务太简单时模型容易走捷径直接从任务描述映射到答案绕过检索到的任务技能。在 ID 场景下这没问题反正模型记住了但在 OOD 场景下——换了新技能模型还是走老路完全不读新技能。怎么检测捷径反事实探测故意把任务技能拿掉No-Skill Prompt看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。利用这个利用增益u_i p_i - p_i^none 作为任务级优势调节走捷径的任务被惩罚真正使用技能的任务被奖励。推理时只要任务技能训练完成后推理极其简洁通用技能已经在参数里了prompt 里只放检索到的任务技能。上下文精简新技能即插即用。效果OOD 提升 13.2%ALFWorld家庭任务环境方法ID AvgOOD AvgRankSkillRL最强技能基线90.845.36.3SKILL0全内化85.139.67.5SLIM82.835.87.0Skill0.593.158.52.5比最强技能基线 SkillRLID 2.3%OOD 13.2%。平均排名 2.5远超所有基线。WebShop购物环境比最强技能基线ID 2.1%OOD 3.9%。一致提升。消融缺一不可变体IDOODSkill0.5 完整93.158.5只做内化88.047.0只做外挂68.028.0只做外挂时全面崩塌——没有通用技能打底任务技能的对比优势微乎其微训练几乎停滞。只做内化时 OOD 明显差——内化底座有了但遇到新技能不会用。两者必须联合。训练动态论文的训练曲线揭示了两个关键阶段早期困难任务主导特权蒸馏打破零梯度困境Skill0.5 起步远快于基线中后期简单任务主导反捷径探测维持 OOD 持续上升而 SkillRL 开始过拟合下降这件事意味着什么不要把所有技能一锅炖。通用技能和任务技能有本质差异分而治之效果远好于一刀切。Skill0.5 的0.5哲学意味着随着技能库持续扩张模型只需要内化稳定的通用底座任务技能可以无限外挂——这是一个可持续扩展的架构。难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题后者解决过拟合问题。这两个思路不限于技能训练也适用于其他 RL 场景。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
Agent彻底爆发,美团连发了3篇Skill
发布时间:2026/6/7 5:14:20
太强了美团连发了3篇Agent Skill技术论文Skill0Skill0.5Skill1先说一个反直觉的结论训练 Agent 用技能最危险的不是学不会而是学会了但走捷径——简单任务上模型绕过技能直接记忆答案到了新环境就彻底崩溃。而 Skill0.5 的解法用一个词概括就是“一半一半”。通用技能写进模型参数当底座任务技能留在 prompt 当插件。不二选一各管各的。Agent 技能训练的二选一困境给 Agent 装技能当前有两种做法全外挂Skill1所有技能都塞进 prompt。好处是灵活随时换技能。但 prompt 太长LLM 的推理和指令遵从能力骤降——特别是在长链路任务中模型容易迷失在中间。全内化SKILL0所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。这两种做法都假设所有技能用同一种方式处理。但这个假设未必都成立。Skill0.5 的方法难度分层 差异化训练Skill0.5 的核心是一个两阶段流程先按难度分班再因材施教。Phase-1难度感知路由对每个训练任务先用标准 prompt只有任务技能没有通用技能跑 G 次算通过率 p_ip_i 0完全做不了 →Hard 层0 p_i ≤ η_t有时能做 →Medium 层p_i η_t基本能做 →Easy 层阈值 η_t 是滑动窗口平均动态调整避免单批次噪声。Phase-2分层差异化训练Hard 层——特权蒸馏内化通用技能做不了任务 缺基础逻辑。给模型开小灶用特权 prompt通用技能 任务技能跑出正确轨迹然后用 JSD 蒸馏把通用技能教进参数。学生只看标准 prompt但要学会和老师有通用技能指导时一样的推理步骤。这样通用技能就内化到了参数里推理时不需要额外注入。Medium 层——标准 GRPO提升成功率有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习通过试错最大化成功率。Easy 层——反捷径探测强制使用任务技能这里是最精彩的设计。任务太简单时模型容易走捷径直接从任务描述映射到答案绕过检索到的任务技能。在 ID 场景下这没问题反正模型记住了但在 OOD 场景下——换了新技能模型还是走老路完全不读新技能。怎么检测捷径反事实探测故意把任务技能拿掉No-Skill Prompt看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。利用这个利用增益u_i p_i - p_i^none 作为任务级优势调节走捷径的任务被惩罚真正使用技能的任务被奖励。推理时只要任务技能训练完成后推理极其简洁通用技能已经在参数里了prompt 里只放检索到的任务技能。上下文精简新技能即插即用。效果OOD 提升 13.2%ALFWorld家庭任务环境方法ID AvgOOD AvgRankSkillRL最强技能基线90.845.36.3SKILL0全内化85.139.67.5SLIM82.835.87.0Skill0.593.158.52.5比最强技能基线 SkillRLID 2.3%OOD 13.2%。平均排名 2.5远超所有基线。WebShop购物环境比最强技能基线ID 2.1%OOD 3.9%。一致提升。消融缺一不可变体IDOODSkill0.5 完整93.158.5只做内化88.047.0只做外挂68.028.0只做外挂时全面崩塌——没有通用技能打底任务技能的对比优势微乎其微训练几乎停滞。只做内化时 OOD 明显差——内化底座有了但遇到新技能不会用。两者必须联合。训练动态论文的训练曲线揭示了两个关键阶段早期困难任务主导特权蒸馏打破零梯度困境Skill0.5 起步远快于基线中后期简单任务主导反捷径探测维持 OOD 持续上升而 SkillRL 开始过拟合下降这件事意味着什么不要把所有技能一锅炖。通用技能和任务技能有本质差异分而治之效果远好于一刀切。Skill0.5 的0.5哲学意味着随着技能库持续扩张模型只需要内化稳定的通用底座任务技能可以无限外挂——这是一个可持续扩展的架构。难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题后者解决过拟合问题。这两个思路不限于技能训练也适用于其他 RL 场景。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】