你不知道的 Agent：原理、架构与工程实践

发布时间：2026/6/12 0:24:11

哈喽大家好我是蝈蝈。最近看到一篇质量相当高的技术长文作者 Tw93把 Agent 的底层逻辑从头梳理了一遍从控制流、上下文工程、工具设计一直讲到多 Agent 协作、评测和安全干货密度很高。我把里面最核心的判断和Agent工程经验整理出来分享给大家。Agent 到底是怎么跑起来的很多人觉得 Agent 很神秘但它的核心循环其实极其简单**感知 → 决策 → 行动 → 反馈**不断重复直到模型返回纯文本为止。整个逻辑抽象出来不到 20 行代码而且这个主循环几乎不会变不管是加子 Agent、加上下文压缩还是加 Skills 加载新能力都是叠在循环外面不动循环本身。这里有一个经常被混淆的概念值得说清楚**Workflow 和 Agent 的本质区别在于控制权在谁手里。**执行路径由代码预先写死的是 Workflow由 LLM 动态决定下一步的才是 Agent。现实中很多打着 Agent 旗号的产品深入看其实更接近 Workflow但这本身没有高下之分关键是给任务找到更合适的解法。Harness 比模型本身更关键这是原文里最反直觉的一个判断也是我觉得最有价值的一条。**Harness 是围绕 Agent 构建的测试、验证与约束基础设施**至少包括四部分验收基线、执行边界、反馈信号、回退手段。有一个非常真实的案例**3 个工程师用 5 个月写了百万行代码提了将近 1500 个 PR是传统开发速度的 10 倍。**这个速度背后不是模型有多强而是几个工程决策做对了约束编码化而非文档化写进 Linter 和 CI 的规则才有执行力写在文档里的规范很容易被忽略Agent 端到端自主完成任务查日志、查指标、复现 Bug、开 PR、处理 Review 反馈、自主合并全链路不需要人介入测试偶发失败用重跑处理而不是阻塞进度。真正决定 Agent 系统能不能收敛的往往不是模型能力而是任务有没有机器可执行的验收标准。任务越清晰、验证越自动化Agent 越能发挥价值任务模糊又没有自动验证Agent 基本只会原地打转。Harness 要做的就是把任务从「模糊人工」推向「清晰自动化」。图里用任务清晰度和验证自动化程度把任务分成四种状态右上角目标明确、结果可以自动验证是最适合 Agent 发挥的区域左上角任务清楚但验收还得人盯吞吐量天花板是人的审查速度右下角有自动化反馈但目标模糊系统会高效地往错误方向跑左下角两者都缺Agent 基本起不到作用。Harness 要做的就是把任务推进右上角让对错有机器可以执行的判断标准而不是靠人盯。上下文工程防的是 Context RotTransformer 的注意力复杂度是 O(n²)**上下文越长关键信号越容易被噪声稀释。**实践中最常见的失效模式是无关内容一旦占到上下文的大头Agent 的决策质量就会明显下滑这个现象叫 Context Rot。很多看起来像模型能力不足的问题追根溯源其实是上下文组织不当。解决方案是**按信息的使用频率和稳定性分层管理**常驻层只放身份定义、项目约定、绝对禁止项保持短、硬、可执行Skills 和领域知识按需加载不用的不占位置当前时间、渠道 ID、用户偏好这类动态信息每轮按需拼入跨会话经验写入 MEMORY.md需要时才读取确定性逻辑完全不进上下文交给 Hooks 或代码规则处理。Skills 的按需加载有一个数据很说明问题**Skill 描述里没有反例时准确率从基准 73% 掉到 53%加上反例后升到 85%响应时间还降了 18.1%。**反例不是可选项是 Skill 描述能不能起作用的关键。工具设计问题多数不在数量不够上下文决定模型能看到什么工具决定模型能做什么。工具定义的质量比数量更关键。仅 5 个 MCP 服务器就可能带来约55,000 tokens的工具定义开销相当于在 200K 上下文里还没开始对话就用掉了近三成。工具设计大致经历了三代演进。第一代是直接把 API Endpoint 封装成工具粒度过细第二代是 ACIAgent-Computer Interface工具应对应 Agent 的目标而不是底层 API 操作比如不要分别暴露create_file、write_content、set_permissions而是直接给一个create_script(path, content, executable)一次搞定第三代是在工具设计之上进一步优化发现、调用和描述方式——动态工具发现可以让上下文保留率达到 **95%**模型准确率从 **49% 提升到 74%**每个工具附带 1~5 个真实调用示例后工具调用准确率可从72% 提升到 90%。调试 Agent 时应该先检查工具定义大多数工具选择错误的原因出在描述不准确不在模型能力。好的工具设计有三个原则参数清晰有约束、错误结构化给出修正建议、定义和实现绑在一起。记忆系统四层分工Agent 不具备原生的时间连续性会话结束后上下文随之清空记忆层得单独设计。按 Agent 实际要解决的问题来分大概有四种记忆上下文窗口工作记忆当前任务最小信息、Skills程序性记忆操作流程和领域规范、JSONL 会话历史情景记忆磁盘持久化支持跨会话检索、MEMORY.md语义记忆Agent 主动写入认为重要的事实每次启动时注入系统提示。左侧是 Agent 运行时只有上下文窗口存在于 messages[] 中会随着会话结束一起清空右侧是磁盘上的持久层Skills 文件按需加载JSONL 会话历史保留完整过程并支持检索MEMORY.md 则沉淀 Agent 主动写入的稳定事实并在后续会话中持续注入。值得一提的是**对大多数 Agent 来说记忆库规模并不需要一开始就引入向量存储**结构化 Markdown 加关键词搜索已经具备足够好的可调试性和成本表现只有当规模超过几千条、并且确实需要语义相似度检索时再考虑引入向量检索才合适。记忆整合的触发时机同样重要当 token 使用量超过上限的50%时自动触发整合成功路径把摘要追加到 MEMORY.md失败路径把原始消息写入 archive 保留完整历史。最关键的不是摘要写得多漂亮而是流程本身必须可回退系统只移动指针不删除原始消息。多 Agent协议先于协作一说到多 Agent很多人先想到并行但工程上要先解决的其实是隔离和协作。多 Agent 的主要价值不是多开几个模型而是**把人的持续参与变成对工件的最终审核。**主 Agent 作为 Orchestrator 统筹全局子 Agent 独立并行工作通过 JSONL inbox 协议通信用 Worktree 隔离文件修改用任务图管理依赖关系。子 Agent 执行完只回传摘要搜索和调试细节留在自己的上下文里不污染主 Agent。有一个风险需要特别注意**多个 Agent 频繁互动时错误会被一层层放大。**Agent A 先带偏Agent B 跟着强化Agent C 再叠加最后所有 Agent 都收敛到同一个高置信度的错误结论。交叉验证能打断这条链让某个 Agent 独立判断而不是顺着前面的结论继续走。评测先修评测再改 Agent这是另一个非常重要的判断。看到 Agent 表现下降不要立刻着手修改 Agent 本身先确认评测系统没有先出问题。评测出了问题你拿到的是一个失真的信号基于它去改 Agent改的方向可能从一开始就是错的。两个核心指标用途不同不能混用Passk适合在开发阶段回答「这个 Agent 理论上能不能做到」Pass^k适合在上线前回答「已有功能有没有被改坏」。评测体系不用等完整了再开始**20 到 50 个真实失败案例就够启动。**有一条判断标准值得记住如果两个领域专家拿同一个案例独立判断结论不一致说明验收标准还没写清楚先解决定义再收集数据。评测系统常见的出错来源运行环境资源不足导致进程被杀、评分器本身有 bug 把正确答案判成失败、测试用例和生产场景脱节。这些问题在表现上和模型退化一模一样很难从结果数字上直接区分。看到评测分数下降先查环境再动 Agent。最后说一句这篇文章给我最大的感触是Agent 工程的核心矛盾不是模型不够强而是外围工程没跟上。Harness 质量、上下文组织、工具描述精度、评测可靠性这些软基础设施的投入回报往往比换一个更贵的模型更高、更稳定。换句话说与其花时间猜模型为什么答错不如先把验收标准写清楚把工具描述写准确把评测环境跑干净。这才是让 Agent 真正跑稳的工程路径。如果这篇对你有帮助帮忙**点赞关注**帮助作者有动力继续更新欢迎关注公众号**蝈蝈的AI笔记**里面有更多干货内容。原文: Tw93HiTw93发布的长推:https://x.com/HiTw93/status/2034627967926825175

OpenClaw权限隔离：ollama-QwQ-32B多用户任务队列与资源限制

OpenClaw权限隔离：ollama-QwQ-32B多用户任务队列与资源限制 1. 为什么需要权限隔离？ 去年我在家里搭建了一个共享的AI工作站，让家人都能使用OpenClaw完成各自的自动化任务。最初我天真地以为"大家都会自觉遵守规则"，结…

2026/6/11 20:15:45 阅读更多

Anti-PsbA | D1蛋白的C端抗体，光系统II损伤与修复动态监测方案

在植物光合作用的研究中，光系统II（PSII）是核心的蛋白质复合体之一。而其中的D1蛋白，作为PSII的核心组分，承担着光化学反应的关键角色。为了更准确地研究这一关键蛋白，科学家们需要一种高效、特异性强的检测…

2026/6/11 23:13:39 阅读更多

微信小程序毕业设计基于微信小程序的郑大强上门做菜预定服务平台

前言随着人们生活水平的提高和生活节奏的加快，便捷、高品质的餐饮服务需求日益增长。郑大强上门做菜预定服务应运而生，旨在为客户提供更加个性化、高品质的餐饮体验。然而，传统的预定方式存在信息不透明、沟通不便、订单管理混乱等问题。为了…

2026/6/11 23:20:00 阅读更多

华硕笔记本性能调校革命：G-Helper颠覆性轻量级控制工具完整指南

华硕笔记本性能调校革命：G-Helper颠覆性轻量级控制工具完整指南【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Ze…

2026/6/12 0:24:08 阅读更多

Linux平台可交互生态演化模拟器：C语言实现，含遗传进化、Boids群集与OpenGL实时可视化

本文还有配套的精品资源，点击获取简介：在Linux系统上运行的轻量级生态演化模拟程序，用标准C编写，依赖OpenGL实现实时图形渲染。内置多种生物代理，通过遗传算法模拟繁殖、基因突变和自然选择过程，同时融…

2026/6/12 0:22:04 阅读更多

别再硬啃NP-hard问题了！用拉格朗日松弛把复杂约束‘打包’进目标函数，Python手把手教你算下界

拉格朗日松弛实战：用Python拆解复杂约束的优化困局当你在凌晨三点盯着屏幕，看着Gurobi求解器已经运行了八小时依然没有收敛的进度条，那种绝望感每个算法工程师都深有体会。NP-hard问题就像数学迷宫里的米诺陶洛斯，而拉格朗日松弛正…

2026/6/12 0:22:04 阅读更多

揭秘Wan2.2-VAE：革命性的高效视频压缩技术如何改变生成式AI

揭秘Wan2.2-VAE：革命性的高效视频压缩技术如何改变生成式AI 【免费下载链接】Wan2.2-TI2V-5B Wan2.2-TI2V-5B是一款开源的先进视频生成模型，基于创新的混合专家架构（MoE）设计，显著提升了视频生成的质量与效率。该模型支…

2026/6/12 0:21:24 阅读更多

毕业设计别再愁了！手把手教你用MyBatis-Plus+Element-UI快速搭建酒店管理后台

毕业设计实战：基于SpringBootVue的酒店管理系统开发指南 1. 项目背景与技术选型每到毕业季，计算机专业的学生们都会面临一个共同的挑战——如何高效完成毕业设计项目。酒店管理系统作为经典的企业级应用场景，既能体现完整的开发流程&#…

2026/6/12 0:21:03 阅读更多

163MusicLyrics：一站式免费歌词下载工具，轻松获取网易云和QQ音乐歌词

163MusicLyrics：一站式免费歌词下载工具，轻松获取网易云和QQ音乐歌词【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为找不到音乐歌词而烦恼…

2026/6/12 0:21:03 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…