深度综述：Effective Harnesses for Long-Running Agents

发布时间：2026/6/21 7:32:44

引言AI Agent 在处理复杂长期任务时面临重大挑战。即使是当前最强大的语言模型也常因上下文窗口受限、缺乏跨会话记忆而无法持续推进跨数小时或数天的工作。Anthropic 在 2025 年发布的技术文章《Effective Harnesses for Long-Running Agents》针对这一问题提出了一套工程级解决方案为实现“长时间运行的智能体”提供了可实践的框架。本文将深入分析其设计原理、关键技术和工程实践并总结相关社区案例与未来方向。一、长时间运行智能体的核心问题在多上下文窗口context windows工作时智能体每次新会话都像没有记忆的工程师一样重新开始这导致未完成的功能缺乏历史背景下一轮会话无法正确推断项目状态重复工作或错误判断任务已完成。这种“上下文失忆”context amnesia是阻碍智能体长期任务执行的根本问题特别在软件工程项目这样的复杂流程中尤为突出。二、Anthropic 的框架设计原则Anthropic 提出的架构旨在让 AI Agent 在离散会话中保持连续性与渐进性核心思想如下借鉴工程师工作流程人类软件工程师常通过版本控制、功能清单与逐步测试推进项目而不是试图一次完成任务或跳过必要验证。Anthropic 将这一思路迁移到 Agent 设计中。将复杂任务分解为可管理单元将任务拆分为多个功能每次会话只专注于实现其中之一并通过结构化文件记录状态。三、双 Agent 架构Initializer 与 Coding AgentAnthropic 提出的长时间运行 Agent 框架由两个角色组成3.1 初始化 AgentInitializer Agent首次运行时初始化 Agent 的任务包括创建项目 git 仓库生成启动脚本如 init.sh输出详细的功能列表文件feature_list.json创建进度日志文件如 claude-progress.txt提交初始代码。这样做的目的是为后续任务建立一个标准化的工作环境使后续 Agent 能直接从文件中读取项目状态而无需凭借先前对话的记忆。3.2 增量 Coding Agent所有后续会话由 Coding Agent 负责它的行为准则包括从文件和历史记录中恢复项目状态如读取进度日志、Git 历史等一次只实现一个未完成的功能每轮结束前执行端到端测试提交代码与更新进度日志。这种方式能够强制 Agent 不再尝试“一次性完成大任务”也避免了半途而废、遗漏功能等问题。四、核心机制细节4.1 功能清单与增量工作流初始化 Agent 会创建包含大量详细功能的 JSON 文件例如{ category: functional, description: New chat button creates a fresh conversation, steps: [ Navigate to main interface, Click the New Chat button, Verify a new conversation is created, Check that chat area shows welcome state, Verify conversation appears in sidebar ], passes: false }这个文件作为系统功能验收标准控制每次 Coding Agent 的工作范围与验证条件只允许通过修改 passes 字段来标记功能完成。增量工作流确保了每个功能被仔细实现与验证Agent 不会随意更改测试条件功能推进清晰可追踪。4.2 环境与状态管理每次会话开始时Coding Agent 执行一系列固定步骤检查当前目录读取 Git 提交日志阅读功能清单选择下一个待完成的优先功能启动开发服务器并进行基础测试开始实现该功能。这一标准化步骤帮助 Agent 在有限上下文内快速恢复状态与任务意图。4.3 强制测试与质量保证Anthropic 强调若不强制进行端到端测试Agent 易于误判功能完成。通过引入自动化测试工具如浏览器自动化可以显著提升功能验证的准确性并减少后续修复开销。五、实践案例与社区探索相关社区中出现了多个基于上述架构的实践尝试例如使用网格插件结合 GitHub 自动化管理进度任务利用 JSON 进度记录与数据库存储方式持久化状态通过命令行工具统一更新进度与任务选择。这些实践侧面验证了 Anthropic 提出架构的可操作性与实用性。六、系统优势与限制6.1 系统优势跨会话一致性Agent 能读取外部记录文件并恢复任务状态工程规范化推进采用增量实现、测试驱动与版本控制可审计与可回退Git 历史使功能推进透明且可回滚。6.2 现阶段限制尽管此方案有效应对软件工程类长期任务但对于非代码密集领域如科研写作、战略分析等仍需探索更通用的长时间状态管理策略。还有多 Agent 协作 vs 单体 Agent 的性能对比尚未明确。七、未来方向未来的研究可能重点包括探索多角色 Agent 协作测试 Agent、质量保证 Agent 等推广至科研任务、金融建模类长期任务跨项目的数据检索与状态管理机制优化。我们预期这一方向将推动智能体从单次任务工具向持续协作助手转型实现更全面的长期任务自治能力。八、总结Anthropic 在《Effective Harnesses for Long-Running Agents》中提出的架构突破了传统智能体对单次上下文窗口的依赖通过结构化环境、增量开发与持久化状态管理使 Agent 能有效执行长期任务。该方案虽最初应用于软件开发但其核心原则对广泛复杂长期任务也具有借鉴意义为 AI Agent 在真实场景的持续执行能力奠定了基础。如需进一步补充实践代码示例、架构模板或对比分析请继续提出具体需求。紫微AI推荐18篇 Harness 精讲深度综述Effective Harnesses for Long-Running Agents2026年AI Agent 的真相模型成了可互换的引擎Harness 才是决定 Agent 能不能真正落地的产品控制论重生Harness Engineering 才是真正的未来工程师工作Harnesses Agent Frameworks 敢诚实回答这个问题的人从瞎试工具的一人公司真正变成知道怎么选、怎么用、怎么赚钱的“智能生意人”。AI Agent 的成功秘诀Harness 才是产品模型只是引擎Agent Harness 工程实战文件系统、沙箱、Ralph Loop 与 Middleware 生产级实现附完整代码AI Agent 的核心秘密不是大模型而是 Harness 工程别再试图让 Agent 适应你的代码库而是让代码库和流程适应 Agent。AI Coding Agent 时代工程师不再是“码农”Harness Engineering 实战 playbook训练环境决定 AI Agent 天花板Harness 如何塑造 RL 训练循环AI Agent 时代模型只是“基础设施”Harness 才是你真正的产品从零手把手用本地Ollama GPT-OSS搭建AI Agent Harness完全离线、私有、零成本让AI真正“永动机”干活LLM Agent 非法动作频发Google DeepMind 用 AutoHarness 自动生成代码“安全带”小模型直接反超大模型Harness 才是王道为什么 3 个工程师能月产百万行代码而你的 Agent 还在原地打转AI Agent 的本质不是模型而是流程设计Harness 才是真正的王牌实战篇大多数开发者以为 AI Agent 拼的是模型能力但 Anthropic 最新实验告诉你真正决定成败的是「生成-评估」分离的 Harness 设计用AI自主开发完整App时你是不是也卡在“代码看着行、实际一用就崩”Anthropic的Harness设计给出答案

Notepad++高效排版：10倍提升工作效率

引言简要介绍Notepad作为一款免费文本编辑器的优势，以及高效排版对提升工作效率的重要性。Notepad高效排版技巧基础快捷键操作快速选择行：Ctrl L复制/剪切整行：Ctrl D / Ctrl Shift L快速跳转行：Ctrl G多行注释：C…

2026/6/20 20:46:09 阅读更多

2021必修首门CSS架构系统精讲理论+实战玩转蘑菇街百度网盘

在前端开发的职场鄙视链里，存在一个极其普遍的误区：认为电商页面就是“简单的列表详情”，没什么技术含量。殊不知，电商是前端技术最残酷的练兵场：毫秒级的首屏速度、像素级的视觉还原、千人千面的动态布局、以及大促期…

2026/6/20 17:18:27 阅读更多

厦门选117E还是120E？手把手教你为你的城市选择正确的高斯克吕格投影坐标系

厦门GIS项目实战：如何精准选择高斯克吕格投影坐标系第一次在ArcGIS里看到上百个坐标系选项时，我的鼠标指针在列表上方徘徊了整整十五分钟——就像站在自动售货机前不知道按哪个按钮的新手。特别是当项目 deadline 临近，而厦门市规划局的Shap…

2026/6/20 11:05:08 阅读更多

字节跳动招聘骗局与内部人才绞肉机完整内幕白皮书

字节跳动招聘骗局与内部人才绞肉机完整内幕白皮书字节跳动被曝采用"人才绞肉机"模式：通过虚假高薪承诺吸引优质劳动力，入职后通过高强度加班、绩效压榨和业务快速迭代等手段，在员工28-35岁黄金期最大化榨取其价值。招聘环节存在JD…

2026/6/21 7:32:01 阅读更多

NVIDIA Profile Inspector终极指南：深度解锁显卡隐藏性能的免费专业工具

NVIDIA Profile Inspector终极指南：深度解锁显卡隐藏性能的免费专业工具【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否曾对游戏画面撕裂、输入延迟过高感到烦恼？是否觉得…

2026/6/21 7:30:56 阅读更多

手机号定位神器：如何3秒内完成号码归属地查询与地图精准定位

手机号定位神器：如何3秒内完成号码归属地查询与地图精准定位【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/g…

2026/6/21 7:30:16 阅读更多

OpenClaw本地AI Agent一键部署实战指南

1. 项目概述：这不是“白嫖”，而是本地AI Agent的平民化落地实践“龙虾白嫖部署教程”这个标题，乍看像网络段子，实则精准击中了当前AI应用落地最真实的痛点——不是模型不够强，而是普通人根本迈不过那道“部署门槛”。所…

2026/6/21 7:29:35 阅读更多

5分钟掌握音乐解锁工具：如何让加密音乐文件自由播放？

5分钟掌握音乐解锁工具：如何让加密音乐文件自由播放？ 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地…

2026/6/21 7:29:14 阅读更多

AI Agent本地化部署实战：从OpenClaw生态看服务编排与中文工程化

1. 项目概述：这不是一个“安装包”，而是一套面向AI Agent开发者的本地化工作流整合方案“openclaw 安装教程 (2026最新5月版)_TopClaw自动部署中文官网满血版龙虾AI”——这个标题里藏着三个被严重误读的关键词：“openclaw”、“TopClaw”和…

2026/6/21 7:28:54 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/21 0:00:02 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/21 0:00:02 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:22 阅读更多

Google AI Studio 300美元额度的真相与实战指南

2026/6/21 0:00:02 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

2026/6/21 0:00:02 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

2026/6/21 0:00:22 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/20 11:30:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/20 11:30:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/20 11:30:09 阅读更多

相关文章

Notepad++高效排版：10倍提升工作效率

2021必修 首门CSS架构系统精讲 理论+实战玩转蘑菇街 百度网盘

厦门选117E还是120E？手把手教你为你的城市选择正确的高斯克吕格投影坐标系

字节跳动招聘骗局与内部人才绞肉机完整内幕白皮书

NVIDIA Profile Inspector终极指南：深度解锁显卡隐藏性能的免费专业工具

手机号定位神器：如何3秒内完成号码归属地查询与地图精准定位

OpenClaw本地AI Agent一键部署实战指南

5分钟掌握音乐解锁工具：如何让加密音乐文件自由播放？

AI Agent本地化部署实战：从OpenClaw生态看服务编排与中文工程化

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2021必修首门CSS架构系统精讲理论+实战玩转蘑菇街百度网盘