现有的 Agent 技能库就像一个没有目录的文件柜——你往里面塞了很多技能用的时候只能靠语义相似度去翻。翻出来的技能有没有先后顺序谁是谁的前置条件没人知道。中科大和阿里巴巴团队提出了 SkillGraph把文件柜变成了一张有方向的地图技能之间谁依赖谁、谁增强谁、谁经常一起出现都标得清清楚楚。更关键的是这张地图会随着 Agent 训练自动长出新路、砍掉死路。结果7B 开源模型在 ALFWorld 上碾压 GPT-4o 42.6 分。扁平技能库的两个致命伤当前主流的 Agent 技能管理方式不管是 Voyager、ExpeL 还是 SkillRL本质上都是一个扁平列表。存技能的时候只记内容和分类检索的时候只看语义相似度。这带来两个问题第一检索不组合。复杂任务需要按顺序执行多个技能。比如 ALFWorld 里的加热并放置任务你得先找到物品、再拿起来、再加热、再放到目标位置。扁平检索可以返回一堆相关技能但没法告诉你先做哪个后做哪个。第二维护没结构。技能存多了就乱冗余的技能挤占 context过粗的技能覆盖不了细分场景过时的技能拖低成功率。但系统没有结构性线索来判断什么时候该合并、拆分还是淘汰。根源在于技能之间的依赖关系本身就是知识而扁平库把这种知识丢了。SkillGraph 的结构SkillGraph 的核心思路很简单把技能组织成有向图节点是技能边是关系。但关键不只是建图而是让这张图和 Agent 策略一起进化形成闭环。图构建三种关系一开始就说清从 Agent 的交互轨迹里蒸馏出两类技能通用技能跨任务可用的推理策略和任务特定技能某类任务的专有策略。然后建三种边Prerequisite前置依赖技能 A 必须在技能 B 之前执行。比如找到物品是拿起物品的前置。Enhance增强通用技能 A 能让任务特定技能 B 效果更好。比如验证每个子目标能增强检查微波炉的效果。Co-occur共现两个技能经常在成功的轨迹里一起出现。每条边有权重初始根据结构先验设定后面训练中动态调整。每个节点记录使用次数、成功次数和经验成功率。图感知检索不是一堆卡片是一条路径这才是 SkillGraph 和扁平库的本质区别。给定一个新任务选种子从当前激活的技能里选出通用技能 匹配任务类型的技能作为起点。向后扩展沿前置依赖边做 BFS找回种子依赖但可能属于其他类别的基础技能。向前扩展沿出边做 beam search找到种子可能引导的后续技能。拓扑排序把扩展出来的技能按依赖关系排序输出一条从简到繁的技能执行路径。Agent 拿到的不是这几个技能可能有用而是先做 A、再做 B、然后做 C。这个区别在多步骤任务上是决定性的——消融实验证明去掉图感知检索ALFWorld 直接掉了 31.2 分。图进化节点增删改 边的强化与修剪静态的图跟不上不断进步的策略。SkillGraph 在每次验证步执行图进化节点层面插入Agent 在现有技能覆盖不到的任务上失败 → 教师模型分析失败轨迹生成新技能合并两个技能的图邻居高度重叠Jaccard ≥ 0.85→ 大概率是冗余合二为一拆分一个技能使用多但成功率中等15%-40%→ 可能过粗拆成更聚焦的子技能淘汰使用多但成功率极低 15%→ 废弃不再检索边层面路径强化成功轨迹经过的边权重增加验证过的依赖路径更容易被未来检索到共现发现两个技能在同一成功轨迹里出现但还没连边 → 加一条 co-occur 边衰减修剪所有边权重的衰减因子 γ0.99低于阈值的边直接删掉。旧关系不会永远赖着不走渐进解锁这是个巧妙的设计。一开始只有 level-0没有前置依赖的基础技能是激活的。当第 L 层技能的平均成功率超过 60%才解锁第 L1 层。Agent 先学走路再学跑步高级技能不会在基础没打牢时出来添乱。闭环训练策略用 GRPO 优化技能图在每个验证步进化。更好的策略产生更丰富的轨迹 → 轨迹驱动图进化 → 更好的图提供更精准的技能路径 → 加速策略学习。数据验证了这个闭环SkillGraph 大约 50 步训练后就超越 SkillRL而且 prompt 更短——因为图遍历只返回拓扑相关的技能不是所有语义相似的条目。实验ALFWorld家居操作方法整体成功率GPT-4o48.0%Gemini-2.5-Pro60.3%GRPO无技能77.6%SkillRL扁平技能库89.9%SkillGraph90.6%Clean 和 Heat 子任务都达到 100%——这两个任务恰好是最需要按严格顺序执行前置动作的。7B 模型比 GPT-4o 高 42.6 分比 Gemini-2.5-Pro 高 30.3 分。WebShop网页购物方法得分成功率SkillRL85.272.7%SkillGraph91.584.4%比 SkillRL 高 11.7 分。WebShop 的任务顺序相对灵活所以图进化保持高质量技能集比检索排序更重要——去掉图进化掉 14.1 分去掉图结构掉 11.7 分。搜索增强 QA只在 NQ 和 HotpotQA 上训练零样本泛化到 5 个没见过的数据集平均 48.9 分所有方法最高。消融实验的关键发现ALFWorld图感知检索最关键-31.2因为任务需要严格的技能顺序WebShop图进化最关键-14.1因为任务需要持续维护高质量技能集冷启动 SFT两个场景都是基础-17.2没有好的初始化 RL 收敛不了小扬总结SkillGraph 目前依赖强教师模型o3做技能蒸馏和图操作推理成本不低。技能图也只在单环境内构建和进化跨环境迁移还没验证。但核心洞察已经清晰技能之间的依赖关系是可以自动发现和进化的知识把它显式表达出来比让模型在扁平列表里自己猜要高效得多。从存技能到组织技能这可能是 Agent 经验管理从量变到质变的关键一步。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
反哺RAG,SkillGraph把skill组装起来了
发布时间:2026/6/1 4:29:57
现有的 Agent 技能库就像一个没有目录的文件柜——你往里面塞了很多技能用的时候只能靠语义相似度去翻。翻出来的技能有没有先后顺序谁是谁的前置条件没人知道。中科大和阿里巴巴团队提出了 SkillGraph把文件柜变成了一张有方向的地图技能之间谁依赖谁、谁增强谁、谁经常一起出现都标得清清楚楚。更关键的是这张地图会随着 Agent 训练自动长出新路、砍掉死路。结果7B 开源模型在 ALFWorld 上碾压 GPT-4o 42.6 分。扁平技能库的两个致命伤当前主流的 Agent 技能管理方式不管是 Voyager、ExpeL 还是 SkillRL本质上都是一个扁平列表。存技能的时候只记内容和分类检索的时候只看语义相似度。这带来两个问题第一检索不组合。复杂任务需要按顺序执行多个技能。比如 ALFWorld 里的加热并放置任务你得先找到物品、再拿起来、再加热、再放到目标位置。扁平检索可以返回一堆相关技能但没法告诉你先做哪个后做哪个。第二维护没结构。技能存多了就乱冗余的技能挤占 context过粗的技能覆盖不了细分场景过时的技能拖低成功率。但系统没有结构性线索来判断什么时候该合并、拆分还是淘汰。根源在于技能之间的依赖关系本身就是知识而扁平库把这种知识丢了。SkillGraph 的结构SkillGraph 的核心思路很简单把技能组织成有向图节点是技能边是关系。但关键不只是建图而是让这张图和 Agent 策略一起进化形成闭环。图构建三种关系一开始就说清从 Agent 的交互轨迹里蒸馏出两类技能通用技能跨任务可用的推理策略和任务特定技能某类任务的专有策略。然后建三种边Prerequisite前置依赖技能 A 必须在技能 B 之前执行。比如找到物品是拿起物品的前置。Enhance增强通用技能 A 能让任务特定技能 B 效果更好。比如验证每个子目标能增强检查微波炉的效果。Co-occur共现两个技能经常在成功的轨迹里一起出现。每条边有权重初始根据结构先验设定后面训练中动态调整。每个节点记录使用次数、成功次数和经验成功率。图感知检索不是一堆卡片是一条路径这才是 SkillGraph 和扁平库的本质区别。给定一个新任务选种子从当前激活的技能里选出通用技能 匹配任务类型的技能作为起点。向后扩展沿前置依赖边做 BFS找回种子依赖但可能属于其他类别的基础技能。向前扩展沿出边做 beam search找到种子可能引导的后续技能。拓扑排序把扩展出来的技能按依赖关系排序输出一条从简到繁的技能执行路径。Agent 拿到的不是这几个技能可能有用而是先做 A、再做 B、然后做 C。这个区别在多步骤任务上是决定性的——消融实验证明去掉图感知检索ALFWorld 直接掉了 31.2 分。图进化节点增删改 边的强化与修剪静态的图跟不上不断进步的策略。SkillGraph 在每次验证步执行图进化节点层面插入Agent 在现有技能覆盖不到的任务上失败 → 教师模型分析失败轨迹生成新技能合并两个技能的图邻居高度重叠Jaccard ≥ 0.85→ 大概率是冗余合二为一拆分一个技能使用多但成功率中等15%-40%→ 可能过粗拆成更聚焦的子技能淘汰使用多但成功率极低 15%→ 废弃不再检索边层面路径强化成功轨迹经过的边权重增加验证过的依赖路径更容易被未来检索到共现发现两个技能在同一成功轨迹里出现但还没连边 → 加一条 co-occur 边衰减修剪所有边权重的衰减因子 γ0.99低于阈值的边直接删掉。旧关系不会永远赖着不走渐进解锁这是个巧妙的设计。一开始只有 level-0没有前置依赖的基础技能是激活的。当第 L 层技能的平均成功率超过 60%才解锁第 L1 层。Agent 先学走路再学跑步高级技能不会在基础没打牢时出来添乱。闭环训练策略用 GRPO 优化技能图在每个验证步进化。更好的策略产生更丰富的轨迹 → 轨迹驱动图进化 → 更好的图提供更精准的技能路径 → 加速策略学习。数据验证了这个闭环SkillGraph 大约 50 步训练后就超越 SkillRL而且 prompt 更短——因为图遍历只返回拓扑相关的技能不是所有语义相似的条目。实验ALFWorld家居操作方法整体成功率GPT-4o48.0%Gemini-2.5-Pro60.3%GRPO无技能77.6%SkillRL扁平技能库89.9%SkillGraph90.6%Clean 和 Heat 子任务都达到 100%——这两个任务恰好是最需要按严格顺序执行前置动作的。7B 模型比 GPT-4o 高 42.6 分比 Gemini-2.5-Pro 高 30.3 分。WebShop网页购物方法得分成功率SkillRL85.272.7%SkillGraph91.584.4%比 SkillRL 高 11.7 分。WebShop 的任务顺序相对灵活所以图进化保持高质量技能集比检索排序更重要——去掉图进化掉 14.1 分去掉图结构掉 11.7 分。搜索增强 QA只在 NQ 和 HotpotQA 上训练零样本泛化到 5 个没见过的数据集平均 48.9 分所有方法最高。消融实验的关键发现ALFWorld图感知检索最关键-31.2因为任务需要严格的技能顺序WebShop图进化最关键-14.1因为任务需要持续维护高质量技能集冷启动 SFT两个场景都是基础-17.2没有好的初始化 RL 收敛不了小扬总结SkillGraph 目前依赖强教师模型o3做技能蒸馏和图操作推理成本不低。技能图也只在单环境内构建和进化跨环境迁移还没验证。但核心洞察已经清晰技能之间的依赖关系是可以自动发现和进化的知识把它显式表达出来比让模型在扁平列表里自己猜要高效得多。从存技能到组织技能这可能是 Agent 经验管理从量变到质变的关键一步。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】