反哺RAG，SkillGraph把skill组装起来了

发布时间：2026/6/1 4:29:57

现有的 Agent 技能库就像一个没有目录的文件柜——你往里面塞了很多技能用的时候只能靠语义相似度去翻。翻出来的技能有没有先后顺序谁是谁的前置条件没人知道。中科大和阿里巴巴团队提出了 SkillGraph把文件柜变成了一张有方向的地图技能之间谁依赖谁、谁增强谁、谁经常一起出现都标得清清楚楚。更关键的是这张地图会随着 Agent 训练自动长出新路、砍掉死路。结果7B 开源模型在 ALFWorld 上碾压 GPT-4o 42.6 分。扁平技能库的两个致命伤当前主流的 Agent 技能管理方式不管是 Voyager、ExpeL 还是 SkillRL本质上都是一个扁平列表。存技能的时候只记内容和分类检索的时候只看语义相似度。这带来两个问题第一检索不组合。复杂任务需要按顺序执行多个技能。比如 ALFWorld 里的加热并放置任务你得先找到物品、再拿起来、再加热、再放到目标位置。扁平检索可以返回一堆相关技能但没法告诉你先做哪个后做哪个。第二维护没结构。技能存多了就乱冗余的技能挤占 context过粗的技能覆盖不了细分场景过时的技能拖低成功率。但系统没有结构性线索来判断什么时候该合并、拆分还是淘汰。根源在于技能之间的依赖关系本身就是知识而扁平库把这种知识丢了。SkillGraph 的结构SkillGraph 的核心思路很简单把技能组织成有向图节点是技能边是关系。但关键不只是建图而是让这张图和 Agent 策略一起进化形成闭环。图构建三种关系一开始就说清从 Agent 的交互轨迹里蒸馏出两类技能通用技能跨任务可用的推理策略和任务特定技能某类任务的专有策略。然后建三种边Prerequisite前置依赖技能 A 必须在技能 B 之前执行。比如找到物品是拿起物品的前置。Enhance增强通用技能 A 能让任务特定技能 B 效果更好。比如验证每个子目标能增强检查微波炉的效果。Co-occur共现两个技能经常在成功的轨迹里一起出现。每条边有权重初始根据结构先验设定后面训练中动态调整。每个节点记录使用次数、成功次数和经验成功率。图感知检索不是一堆卡片是一条路径这才是 SkillGraph 和扁平库的本质区别。给定一个新任务选种子从当前激活的技能里选出通用技能匹配任务类型的技能作为起点。向后扩展沿前置依赖边做 BFS找回种子依赖但可能属于其他类别的基础技能。向前扩展沿出边做 beam search找到种子可能引导的后续技能。拓扑排序把扩展出来的技能按依赖关系排序输出一条从简到繁的技能执行路径。Agent 拿到的不是这几个技能可能有用而是先做 A、再做 B、然后做 C。这个区别在多步骤任务上是决定性的——消融实验证明去掉图感知检索ALFWorld 直接掉了 31.2 分。图进化节点增删改边的强化与修剪静态的图跟不上不断进步的策略。SkillGraph 在每次验证步执行图进化节点层面插入Agent 在现有技能覆盖不到的任务上失败 → 教师模型分析失败轨迹生成新技能合并两个技能的图邻居高度重叠Jaccard ≥ 0.85→ 大概率是冗余合二为一拆分一个技能使用多但成功率中等15%-40%→ 可能过粗拆成更聚焦的子技能淘汰使用多但成功率极低 15%→ 废弃不再检索边层面路径强化成功轨迹经过的边权重增加验证过的依赖路径更容易被未来检索到共现发现两个技能在同一成功轨迹里出现但还没连边 → 加一条 co-occur 边衰减修剪所有边权重的衰减因子 γ0.99低于阈值的边直接删掉。旧关系不会永远赖着不走渐进解锁这是个巧妙的设计。一开始只有 level-0没有前置依赖的基础技能是激活的。当第 L 层技能的平均成功率超过 60%才解锁第 L1 层。Agent 先学走路再学跑步高级技能不会在基础没打牢时出来添乱。闭环训练策略用 GRPO 优化技能图在每个验证步进化。更好的策略产生更丰富的轨迹 → 轨迹驱动图进化 → 更好的图提供更精准的技能路径 → 加速策略学习。数据验证了这个闭环SkillGraph 大约 50 步训练后就超越 SkillRL而且 prompt 更短——因为图遍历只返回拓扑相关的技能不是所有语义相似的条目。实验ALFWorld家居操作方法整体成功率GPT-4o48.0%Gemini-2.5-Pro60.3%GRPO无技能77.6%SkillRL扁平技能库89.9%SkillGraph90.6%Clean 和 Heat 子任务都达到 100%——这两个任务恰好是最需要按严格顺序执行前置动作的。7B 模型比 GPT-4o 高 42.6 分比 Gemini-2.5-Pro 高 30.3 分。WebShop网页购物方法得分成功率SkillRL85.272.7%SkillGraph91.584.4%比 SkillRL 高 11.7 分。WebShop 的任务顺序相对灵活所以图进化保持高质量技能集比检索排序更重要——去掉图进化掉 14.1 分去掉图结构掉 11.7 分。搜索增强 QA只在 NQ 和 HotpotQA 上训练零样本泛化到 5 个没见过的数据集平均 48.9 分所有方法最高。消融实验的关键发现ALFWorld图感知检索最关键-31.2因为任务需要严格的技能顺序WebShop图进化最关键-14.1因为任务需要持续维护高质量技能集冷启动 SFT两个场景都是基础-17.2没有好的初始化 RL 收敛不了小扬总结SkillGraph 目前依赖强教师模型o3做技能蒸馏和图操作推理成本不低。技能图也只在单环境内构建和进化跨环境迁移还没验证。但核心洞察已经清晰技能之间的依赖关系是可以自动发现和进化的知识把它显式表达出来比让模型在扁平列表里自己猜要高效得多。从存技能到组织技能这可能是 Agent 经验管理从量变到质变的关键一步。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2023年AR技术趋势：从空间计算到WebAR，12个实战方向深度解析

1. 项目概述：2023年，沉浸式技术的新里程碑如果你在2023年还在认为增强现实（AR）只是手机里一个偶尔用来拍趣味视频的滤镜，或者游戏里一个短暂的热潮，那可能已经错过了这波技术浪潮中最具颠覆性的部分。作为一…

2026/6/1 4:29:57 阅读更多

用STM32F103做个智能灯控：继电器模块选型、高低电平触发与安全隔离指南

用STM32F103做个智能灯控：继电器模块选型、高低电平触发与安全隔离指南在智能家居DIY领域，用单片机控制照明设备是最经典的入门项目之一。想象一下，清晨被渐亮的灯光温柔唤醒，或是深夜回家时玄关自动亮起的迎客灯——这些场景的实…

2026/6/1 4:29:16 阅读更多

手把手教你用Node.js crypto给API接口‘上锁’：JWT签名与敏感数据加密实战

Node.js Crypto实战：JWT签名与敏感数据加密的工程化实现在当今的Web开发中，API安全已经不再是可选项而是必选项。想象一下这样的场景：你的用户数据在传输过程中被截获，或者数据库被攻破导致所有信息裸奔——这种噩梦般的场景完全可…

2026/6/1 4:26:15 阅读更多

【元器件专题】MOS管开通过程波形分析

Vgs表示的是Cgs电容两端的电压，粉丝这条线. 绿线表示的MOS管的DS电压，也就是Vds，没开通时310V. 在t0-t1时刻，MOS管开通阈值前，MOS管截止，此时Vds310V，流过DS的电流Id0A。从MOS管开始导通到Vg…

2026/6/1 5:44:07 阅读更多

如何高效实现树莓派HX711传感器数据采集：5个关键技术优化方案

如何高效实现树莓派HX711传感器数据采集：5个关键技术优化方案【免费下载链接】hx711py HX711 Python Library for Raspberry Pi. 项目地址: https://gitcode.com/gh_mirrors/hx/hx711py 树莓派HX711库为重量传感器数据采集提供了完整的Python解决方案。这个…

2026/6/1 5:44:07 阅读更多

【元器件专题】MOS管的设计应用

MOS管更多是用来做开关作用，就是G极的电压来控制DS开通。因此G极电压上升的越快，DS自然就会开通的越快。任何半导体在高频下都会体现寄生电容特性，MOS管想要快速导通，GS之间的寄生电容就不能忽略。DS构成了源，回路&…

2026/6/1 5:44:07 阅读更多

十大经典线性回归数据集：从波士顿房价到共享单车需求

1. 项目概述：为什么我们需要高质量的线性回归数据集？刚入门机器学习或者数据分析的朋友，可能都听过“线性回归”这个经典算法。它简单、直观，是理解更复杂模型的一块绝佳跳板。但很多人在学习时，会陷入一个误区&#x…

2026/6/1 5:42:26 阅读更多

别再只看参数！：Gemini与Claude/GPT/Qwen在金融、医疗、政务三大垂域的合规性与事实性实战对决

更多请点击： https://kaifayun.com 第一章：别再只看参数！：Gemini与Claude/GPT/Qwen在金融、医疗、政务三大垂域的合规性与事实性实战对决在真实业务场景中，大模型的“参数量”或“基准测试分数”无法替代其在金融风…

2026/6/1 5:42:26 阅读更多

Proxmox VE 8.0安装避坑实录：在Debian 12上配置网络和电源，防止重启失联

Proxmox VE 8.0安装避坑实录：在Debian 12上配置网络和电源，防止重启失联当你决定在Debian 12上安装Proxmox VE 8.0时，可能已经看过无数教程告诉你如何完成基础安装。但真正考验往往出现在安装之后——当你重启系统，发现Web面板无法…

2026/6/1 5:42:06 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

2023年AR技术趋势：从空间计算到WebAR，12个实战方向深度解析

用STM32F103做个智能灯控：继电器模块选型、高低电平触发与安全隔离指南

手把手教你用Node.js crypto给API接口‘上锁’：JWT签名与敏感数据加密实战

【元器件专题】MOS管开通过程波形分析

如何高效实现树莓派HX711传感器数据采集：5个关键技术优化方案

【元器件专题】MOS管的设计应用

十大经典线性回归数据集：从波士顿房价到共享单车需求

别再只看参数！：Gemini与Claude/GPT/Qwen在金融、医疗、政务三大垂域的合规性与事实性实战对决

Proxmox VE 8.0安装避坑实录：在Debian 12上配置网络和电源，防止重启失联

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因