Agent彻底爆发，美团连发了3篇Skill

发布时间：2026/6/7 5:14:20

太强了美团连发了3篇Agent Skill技术论文Skill0Skill0.5Skill1先说一个反直觉的结论训练 Agent 用技能最危险的不是学不会而是学会了但走捷径——简单任务上模型绕过技能直接记忆答案到了新环境就彻底崩溃。而 Skill0.5 的解法用一个词概括就是“一半一半”。通用技能写进模型参数当底座任务技能留在 prompt 当插件。不二选一各管各的。Agent 技能训练的二选一困境给 Agent 装技能当前有两种做法全外挂Skill1所有技能都塞进 prompt。好处是灵活随时换技能。但 prompt 太长LLM 的推理和指令遵从能力骤降——特别是在长链路任务中模型容易迷失在中间。全内化SKILL0所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。这两种做法都假设所有技能用同一种方式处理。但这个假设未必都成立。Skill0.5 的方法难度分层差异化训练Skill0.5 的核心是一个两阶段流程先按难度分班再因材施教。Phase-1难度感知路由对每个训练任务先用标准 prompt只有任务技能没有通用技能跑 G 次算通过率 p_ip_i 0完全做不了 →Hard 层0 p_i ≤ η_t有时能做 →Medium 层p_i η_t基本能做 →Easy 层阈值 η_t 是滑动窗口平均动态调整避免单批次噪声。Phase-2分层差异化训练Hard 层——特权蒸馏内化通用技能做不了任务缺基础逻辑。给模型开小灶用特权 prompt通用技能任务技能跑出正确轨迹然后用 JSD 蒸馏把通用技能教进参数。学生只看标准 prompt但要学会和老师有通用技能指导时一样的推理步骤。这样通用技能就内化到了参数里推理时不需要额外注入。Medium 层——标准 GRPO提升成功率有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习通过试错最大化成功率。Easy 层——反捷径探测强制使用任务技能这里是最精彩的设计。任务太简单时模型容易走捷径直接从任务描述映射到答案绕过检索到的任务技能。在 ID 场景下这没问题反正模型记住了但在 OOD 场景下——换了新技能模型还是走老路完全不读新技能。怎么检测捷径反事实探测故意把任务技能拿掉No-Skill Prompt看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。利用这个利用增益u_i p_i - p_i^none 作为任务级优势调节走捷径的任务被惩罚真正使用技能的任务被奖励。推理时只要任务技能训练完成后推理极其简洁通用技能已经在参数里了prompt 里只放检索到的任务技能。上下文精简新技能即插即用。效果OOD 提升 13.2%ALFWorld家庭任务环境方法ID AvgOOD AvgRankSkillRL最强技能基线90.845.36.3SKILL0全内化85.139.67.5SLIM82.835.87.0Skill0.593.158.52.5比最强技能基线 SkillRLID 2.3%OOD 13.2%。平均排名 2.5远超所有基线。WebShop购物环境比最强技能基线ID 2.1%OOD 3.9%。一致提升。消融缺一不可变体IDOODSkill0.5 完整93.158.5只做内化88.047.0只做外挂68.028.0只做外挂时全面崩塌——没有通用技能打底任务技能的对比优势微乎其微训练几乎停滞。只做内化时 OOD 明显差——内化底座有了但遇到新技能不会用。两者必须联合。训练动态论文的训练曲线揭示了两个关键阶段早期困难任务主导特权蒸馏打破零梯度困境Skill0.5 起步远快于基线中后期简单任务主导反捷径探测维持 OOD 持续上升而 SkillRL 开始过拟合下降这件事意味着什么不要把所有技能一锅炖。通用技能和任务技能有本质差异分而治之效果远好于一刀切。Skill0.5 的0.5哲学意味着随着技能库持续扩张模型只需要内化稳定的通用底座任务技能可以无限外挂——这是一个可持续扩展的架构。难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题后者解决过拟合问题。这两个思路不限于技能训练也适用于其他 RL 场景。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

垂直领域大模型：行业微调实战指南

这一篇我们聊一个每个业务团队迟早都要面对的问题： 怎么把通用大模型变成「行业专家」？ 打开 HuggingFace，你能看到一堆这样的名字： Med-PaLM 2 (医疗)BloombergGPT (金融)LawGPT / DISC-LawLLM (法律)ChatLaw …

2026/6/7 5:14:20 阅读更多

别再被FQDN卡住了！TDengine 3.0 远程连接保姆级避坑指南（从Linux到Windows）

TDengine 3.0 远程连接全链路配置实战：从原理到避坑手册第一次在云服务器上部署TDengine时，我盯着Connection refused的错误提示整整两小时。作为从2.0版本迁移过来的用户，完全没想到FQDN配置会成为最大的拦路虎——修改了七处配置文件、重启…

2026/6/7 5:11:16 阅读更多

端到端机器学习落地：从数据清洗到模型服务的工业级实践

1. 项目概述：为什么“端到端”不是口号，而是生存线你有没有过这种感觉：模型在本地跑出92.3%的准确率，心里一热，截图发到群里，大家纷纷点赞；结果一问“上线了吗”，瞬间哑火——代码还…

2026/6/7 5:10:56 阅读更多

逆半群与左对合半群的代数结构及应用

1. 逆半群与左对合半群的基本概念1.1 逆半群的代数结构逆半群（Inverse Semigroup）是半群理论中一类重要的代数结构。从代数角度看，逆半群S满足以下性质：对任意s∈S，存在唯一的s∈S使得 sss s 且 sss s*所有幂等元&…

2026/6/7 6:20:29 阅读更多

ROS 2下直接跑YOLOv5轻量模型的检测节点包，带yolov5n/yolov5s权重和相机适配配置

本文还有配套的精品资源，点击获取简介：开箱即用的ROS 2物体检测功能模块，内置yolov5n.pt和yolov5s.pt两个轻量级预训练权重，通过yolov5_ros2.py节点实时订阅/camera/image_raw等标准图像话题，输出带边界框的可视化…

2026/6/7 6:19:28 阅读更多

别再手动打字了！用Web Speech API给你的网站加个‘语音输入框’（附完整代码）

用Web Speech API打造高转化率的语音输入解决方案在移动优先的互联网时代，用户对输入效率的期待已经发生了根本性转变。当我们在手机上看到需要填写长表单的页面时，第一反应往往是皱眉——虚拟键盘的输入体验远不如物理键盘流畅。这正是语音输入技术从手…

2026/6/7 6:19:08 阅读更多

从iNaturalist到电商商品识别：长尾问题在真实业务场景下的‘生存指南’

从iNaturalist到电商商品识别：长尾问题在真实业务场景下的‘生存指南’当你在电商平台搜索"北欧风陶瓷杯"时，系统能准确推荐上百款商品；但换成"19世纪复刻版珐琅怀表"，结果往往寥寥无几甚至完全错误——这背后…

2026/6/7 6:18:48 阅读更多

Python 3.12深度实战：ExceptionGroup、Perf模块与字节码优化指南

1. 项目概述：Python 3.12不是一次“小修小补”，而是CPython运行时底层逻辑的悄然重构你打开终端敲下python --version，看到3.12.x那一行时，可能只当它和3.11、3.10一样，是又一个带点新语法糖的常规升级。但我在过去八个…

2026/6/7 6:18:27 阅读更多

PHP数据库批量操作性能优化

PHP数据库批量操作性能优化批量操作比逐条操作高效得多。一条SQL插入多条记录，一个事务提交多个操作。今天说说PHP中数据库批量操作的优化。批量插入。php$users [ [张三, zhangsantest.com], [李四, lisitest.com], [王五, wangwutest.com], ];// 不推荐&#xff…

2026/6/7 6:18:07 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/6 9:33:50 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/6 9:33:47 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/6 9:33:47 阅读更多

相关文章

垂直领域大模型：行业微调实战指南

别再被FQDN卡住了！TDengine 3.0 远程连接保姆级避坑指南（从Linux到Windows）

端到端机器学习落地：从数据清洗到模型服务的工业级实践

逆半群与左对合半群的代数结构及应用

ROS 2下直接跑YOLOv5轻量模型的检测节点包，带yolov5n/yolov5s权重和相机适配配置

别再手动打字了！用Web Speech API给你的网站加个‘语音输入框’（附完整代码）

从iNaturalist到电商商品识别：长尾问题在真实业务场景下的‘生存指南’

Python 3.12深度实战：ExceptionGroup、Perf模块与字节码优化指南

PHP数据库批量操作性能优化

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因