收藏!小白程序员必看:大模型背后的 Agent Skills 生态如何运作? AI 辅助编程中大模型如何知道“先看日志、再看单测、再跑集成”的顺序答案在于 Agent Skills 生态。SkillsMP 平台已有超 70 万条 Skills日增达 25,207 条类似 npm 的爆发式增长。香港中文大学深圳团队提出四阶段生命周期框架涵盖技能的表示、获取、检索与选择、进化等环节。Skill 不仅指程序代码还包括触发条件C、资源R和指令文档M。技能获取途径多样包括人工编写、经验提炼、任务生成和外部文档挖掘。检索与选择需兼顾上下文、成本、效用等因素进化则涉及修订、验证、策略耦合等步骤。当前生态已初具规模但挑战在于触发条件定义、质量控制和跨用户共享治理。未来需关注统一 Schema、资源感知优化、非平稳环境进化、多模态基准和因果诊断等方向。Agent 有了工具才能做事有了 Skills 才算积累了经验。你有没有想过AI 每次帮你改代码它是怎么知道「出错了先看日志、日志没信息再看单测、单测过了再跑集成」这个顺序的不是模型自带的也不是你教的。是有人把这套流程写成了一个 SkillAgent 拿过来直接用。这件事听起来很小但背后藏着一个正在悄悄成形的基础设施Agent Skills 生态。SkillsMP 这个平台上现在有超过 70 万条 Skills最猛的那天单日新增了 25,207 条。类比一下npm 当年到达这个规模用了好几年。香港中文大学深圳的团队刚发了一篇综述把 2023 年到 2026 年这三年间爆发的 120 个相关系统梳理了一遍提出一套四阶段生命周期框架。这是目前这个领域最完整的全景图。下面我把它拆给你看。https://arxiv.org/abs/2605.07358v1工具够了但还差点什么Claude Code、OpenClaw、Manus 这一代系统的出现标志着 Agent 从「被动回答」转向了「主动执行」。工具调用和 MCP 协议解决了「能访问什么」的问题但一个更根本的问题随之暴露出来搜索工具不会告诉 Agent 什么时候该搜、什么时候该查记忆。API 不会告诉 Agent schema 变了之后该怎么处理。代码解释器不会告诉 Agent 输出结果要怎么验证才算可信。每次任务都让 LLM 从零推理这些步骤高延迟、高出错、难维护这三个问题就同时冒出来了。论文管这个现象叫 Procedural Gap程序性鸿沟。Skills 就是填这条沟的东西把「怎么做」这类知识外化成可以存储、检索、复用、迭代的程序性制品。论文用一条横跨 20 万年的历史时间线把技能外化的演进分成六个阶段阶段时间段代表能力古人类生存~20万 BCE火、工具使用、采集知识与工程~3000 BCE书写、数学、工程工业化~1760s机械化、工厂、批量生产数字化1970–2023编程、互联网、数据处理工具技能2023–2024API、自动化、AI 系统Agent 技能2024 至今规划、记忆、工具使用、协作把反复积累的知识固化成可传递的制品是人类文明进步的底层模式。LLM agent 现在正在经历同样的事情。Skill 不是 Prompt很多人会把 Skill 理解成一段精心写的系统提示词但论文给出了更精确的定义S(M,R,C)三个部分各司其职M是根指令文档agent 加载后直接执行类似 Claude Code 里的 SKILL.md。R是辅助资源集合可以是参考文档、模板也可以是可执行脚本用来扩展 M 单独无法完成的部分。C是适用性条件用元数据、自然语言描述或嵌入向量来描述「这个 Skill 什么时候该被触发」。工具暴露的是「能做什么」Skill 打包的是「在什么情况下、按什么顺序、用什么方式去做」。这个区别说起来简单但工程意义很大一个有 C 的 Skill 可以被系统自动路由一段没有 C 的 Prompt 永远需要人去决定什么时候用它。从 2023 年 4 月到 2026 年 4 月代表性论文数量从个位数增长到 80 篇三波爆发清晰可见2023 年 Q2 是基础框架期ReAct、Voyager、Reflexion 这批奠基性工作密集落地。2024 年初是顶会成果集中兑现期NeurIPS’23 和 ICLR’24 的论文批量发出来。到 2025 年底至 2026 年初研究重心从单个系统转向了生态级基础设施SkillNet、SkillRL、AutoSkill 这类平台型工作开始出现。四阶段生命周期这是论文的核心框架。一个 Skill 从诞生到被用到退役经历四个阶段阶段一Representation技能长什么样按辅助资源 R 的类型分三类。Text-backed文本型的 R 是文字制品比如示例、模板、评分标准。Reflexion、ExpeL、BoT、AWM 都是这类。可读性好人可以直接审但执行确定性弱同一个 Skill 在不同 agent 手里可能跑出不同结果。Code-backed代码型的 R 是可执行制品脚本、Helper 函数、API 包装器。Voyager、SkillCraft、PolySkill 走的这条路。行为确定可重复但软件工程的那套负担也都来了版本管理、依赖管理、测试全都要跟着上。Hybrid混合型两者兼备JARVIS-1、SkillWeaver、AgentSkillOS 是代表。可解释性和执行确定性同时有但代价是协调成本最高文档和代码之间的一致性要持续维护稍有懈怠就会出现「文档说做 A脚本在做 B」的问题。阶段二Acquisition技能从哪来研究最密集的一块。论文梳理出四条来路。Human-Derived专家手写医生把诊断经验写成治疗流程工程师把调试步骤编码成 Playbook政策专家把审查标准形式化成规则。这条路精确度最高能把隐性判断和安全关键规则编码进去但速度慢、规模化难。实践中通常作为种子层先建一批高质量的人工 Skill再启动更自动化的管道。代表系统SkillNet、AgentSkillOS、Agent Hospital。Experience-Derived从执行轨迹里提炼这是研究最集中的方向核心思路是把 agent 自身的历史执行记录当原材料。论文把这条路拆成四个操作Selection选择先把轨迹过一遍只保留成功的或有代表性的。Voyager 的技能库就是这样积累起来的不是什么都存只存跑赢的。Summarization Abstraction摘要抽象把具体轨迹压缩成可复用的经验规则。Reflexion 是这里的经典失败执行不被丢掉而是被转化成「下次碰到 X 情况要避免做 Y」的短规则。ExpeL 更进一步从大量成功和失败里同时提炼更高层的经验。Memory Organization记忆组织不是单独处理每条轨迹而是把积累下来的经验结构化成持久内存。G-Memory 把集体经验组织成层次化记忆图Nemori 把对话历史蒸馏成更稳定的语义记忆。Procedural Induction Packaging程序化归纳打包这一步走得最远直接把成功经验打包成工作流、API 或可执行模块。AWM 能从交互轨迹归纳出带触发器和参数槽的工作流 SkillPolySkill 则直接输出可调用的程序化 Skill。代表系统Voyager、ExpeL、BoT、Reflexion、AWM、G-Memory、PolySkill。Task-Derived当前任务按需生成遇到没有现成 Skill 的新任务时LLM 直接根据任务需求生成候选工作流或脚本跑一下根据结果决定要不要留下来复用。ToolMakers 是这里的代表它做了一件很重要的事把 Skill 创建和 Skill 使用分开。生成的 Skill 不是一次性的下次遇到类似任务可以直接拿来用。代表系统CREATOR、ToolMakers、CodeAct、SkillWeaver、Alita。Corpus-Derived从外部文档里挖从软件仓库、API 文档、数据集、UI 操作轨迹里提炼技能。DS-Agent 的做法很有工程借鉴价值它去 Kaggle 把金牌和银牌解题方案都爬下来从人类最优解里提炼出数据科学任务的 SOP完全不依赖 agent 自身的执行经验。代表系统AppAgent、ToolLLM、DS-Agent、AutoGuide。阶段三Retrieval Selection怎么找到并选中合适的技能库里有了几十万条技能下一个问题就来了Agent 怎么找到该用哪个论文在这里做了一个重要区分检索Retrieval和选择Selection是两个性质不同的问题。检索的目标是把候选集从几十万缩小到几十选择的目标是在这几十个里面在当前执行状态下选出那个值得运行的。Retrieval 的四种策略Dense Embedding稠密向量检索是最普遍的做法用语义相似度匹配任务描述和技能文档。Voyager、SAGE、AutoSkill 都走这条路。问题是语义最近邻不等于执行最合适Skill 还有前置条件、副作用、成本等约束向量相似度捕捉不到这些。Sparse Keyword稀疏关键词检索基于显式字段和元数据做精确匹配。技能有稳定接口名或触发关键词时比向量检索更可信但查询表述模糊时就很快退化。两类方法通常配合使用向量检索开候选集关键词来过滤。Generative Retrieval生成式检索更激进直接在解码时生成 Skill 标识符把检索和调用合并成一步。ToolGen 是代表。流程最简洁但大规模库里怎么保证标识符覆盖率和有效性还是个开放问题。Structure-Aware Retrieval结构感知检索假设技能库内部有组织结构应该利用这个结构来引导检索分两种层次化粗到细缩小搜索空间SkillRL、AgentSkillOS和依赖图感知过滤掉前置条件不满足的候选SkillWeaver、CUA-Skill。Selection 的四个维度Context-aware上下文感知把技能选择视为随执行状态动态变化的在线决策而不是一次性匹配。同一个库执行到不同阶段路由结果可以完全不同。代表AutoGuide、MemSkill。Skill Composition技能组合把选择问题升级为装配问题不是选最好的那一个而是把多个技能组织成可以协同执行的序列或图。SkillWeaver、AWM、ASI 走这条路。复杂任务往往不是一个 Skill 能解决的需要排序、分组、嵌套。Cost Utility-aware成本与效用感知不选最相关的选性价比最高的。SkillsBench 给出了一个让人有点不安的实验结果精心策划的技能在某些任务上会产生负效用。选错技能付出的代价不只是准确率下降还有浪费的算力、多出来的延迟和不必要的副作用执行。Feedback-Driven Reranking反馈驱动重排序用历史执行记录成功或失败来更新候选偏好让过去的错误变成下次排序的信号。SkillRL、CUA-Skill、ToolExpNet 是代表。阶段四Evolution技能怎么随时间变好棋手不是靠多下棋变强的而是靠每次失误之后重新审视了某个棋形。工匠不是靠重复劳动提升的而是靠失败之后修改了操作流程。临床医生也一样是新病例更新了旧的诊断规则。论文把进化和获取严格区分开获取解释的是技能第一次从哪里来进化问的是一个已经存在的技能制品在使用过程中怎么被修订、验证、治理和共享。国际象棋、工艺、临床判断、Agent Skills、精炼后的 Agent Skill新经验改变的不是记录而是流程本身。论文把进化拆成五个环节。Skill Revision技能修订反馈触发对持久 Skill 对象的修改系统判断这次修改要不要留下来。EvoSkill 在失败执行之后决定是「新建一个技能」还是「改写已有的」有 held-out validation 门控候选必须让未来性能更好才能被写入库。Memento-Skills 做得更严谨读取技能文件夹、执行、归因失败、改写、单元测试、回滚确保修订是可逆的。AutoSkill 把反复出现的行为表示为可编辑的 SKILL.md 文件通过增加/合并/丢弃三种操作来更新需要维护者审批才能生效。Skill Validation技能验证修订后的技能必须通过某种检验才能成为可信的未来能力。SkillWeaver 把 Web agent 技能构建成 API用生成的测试来验证。ASI 只有经过测试轨迹验证的程序才进入精炼周期。PSN 构建可执行符号技能的图谱引入故障定位、成熟度门控和回滚验证。Audited Skill-Graph 更严格候选技能只有在可重放的证据束支持下才能被提升进图谱。Policy Coupling策略耦合把 Skill 库变成控制器训练状态的一部分技能和策略一起演化。SkillRL 构建层次化 SkillBank在 RL 训练过程中递归地做技能进化。这里的关键认知是Skill Bank 不是静态的上下文缓存而是动态的训练组件。ARISE 用 manager-worker 架构manager 在执行前选技能执行后把成功轨迹摘要进分层的缓存库层次化奖励同时鼓励任务成功和有效技能使用。Repository Evolution仓库进化让技能变更扩展到整个库层面。SkillX 把多层次技能知识库本身当作待改进对象从执行反馈里精炼和扩展按规划/功能/原子三级来提炼轨迹。SkillNet 通过动态本体构建和关系图组织大型仓库评估维度覆盖安全性、完整性、可执行性、可维护性和成本意识。SkillClaw 做跨用户聚合agentic evolver 精炼现有技能或创建新技能在用户环境里验证再同步回共享库。这带来了分布式治理问题本地系统要避免坏的改写仓库层面还要防止重复技能、不一致关系和不安全分发。Runtime Governance运行时治理技能进化之后最终能不能改变 agent 行为取决于运行时是否真的用到了进化后的版本。SkillRouter 的 retrieve-and-rerank 管道证明用技能的完整内容来路由效果比只看名称和描述强得多。然后有一个必须单独说的系统PoisonedSkills。这个工作揭示了一个很严重的问题第三方技能文档可以隐藏恶意逻辑agent 会把它作为可信操作指引来执行。共享的技能库不只是带来了能力也带来了攻击面。这是 Skills 生态成熟之后绕不开的安全议题。平台生态已经在运行了这不是研究展望里的数字是实际在跑的平台数据。类比一下npm 的早期生态也就这个量级。应用场景八个方向都有落地还没解决的问题论文在开放挑战这部分写得比较实在没有回避。获取侧有三个老问题触发条件C通常比程序M难写好很多好的 Skill 因为路由条件写得模糊而根本不会被用到自动化生成候选的速度比库验证的速度快低质量 Skill 慢慢积累检索越来越噪附带的脚本和 schema 随着库的成熟会和主文档产生漂移没有人主动维护就会变成定时炸弹。检索侧的核心困难是当前领域缺乏一个统一的方式把成功率、成本、延迟、安全性、用户偏好整合进同一个选择目标。大家各自有各自的方法但 top-k 召回率这种指标根本说明不了端到端执行是否真的变好了。进化侧最棘手的是两个问题第一当前系统擅长增加制品不擅长安全地改写和退役增长研究得比清理透彻第二一旦技能可以跨用户共享谁可以发布、谁在技能出错时负责行业还没有共识。五个值得关注的方向统一 Skill Schema现在各家系统的 M 格式差异很大如果有标准字段定义范围、触发条件、依赖、版本、安全约束跨系统共享和检索才能真正发生。资源感知的联合优化检索、规划、执行现在是分开优化的但推理延迟、Token 成本、工具调用风险应该作为一类约束纳入端到端优化。非平稳环境下的库进化API 会弃用工具行为会漂移任务分布会变。技能库需要漂移检测、兼容性检查和版本化回滚评测基准也应该量部署后稳定性而不是只看零样本成功率。多模态和领域特定基准现有研究集中在文本任务但具身 agent、自动驾驶、低空无人机这类场景对技能的需求完全不一样评估维度也不一样。因果驱动的技能诊断很多失败跨越了检索、选择、执行三个阶段从表面日志里看不出来。需要追踪级别的因果溯源才能把失败归因到具体环节然后有针对性地修。总结维度核心结论为什么需要 Skills工具访问权限不等于执行能力Procedural Gap 是瓶颈Skill 是什么S (M, R, C)有边界、可检验、可治理的程序性制品如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取