Harness Engineering 当AI学会写代码,工程师该做什么? 2025年是AI Agent证明自己能写代码的一年。2026年我们意识到一个更深刻的事实——Agent不是难题围绕它的系统才是。今年2月一件事在全球开发者社区炸开了锅OpenAI的一个内部团队用了5个月时间在不写一行手动代码的前提下让Codex Agent生成了一个超过100万行代码的真实产品。这个产品有内部日活用户、有外部测试者能部署、能跑起来、也能出bug——然后Agent自己修。他们的工程师在做什么不是写代码而是设计“环境”——约束、反馈回路、文档结构、架构规则。这套让Agent保持高效和可靠的系统业界现在有了一个新名字Harness。而围绕它的工程实践就叫做Harness Engineering。01 这个词是怎么来的Harness的本意是“马具”——缰绳、鞍、嚼子——整套用来引导一匹强壮但不会自己选方向的马的装备。这个比喻放在AI Agent身上恰如其分模型是那匹马强大、快速但不知道往哪跑。Harness就是让它跑对方向的一整套系统。▍2025年末 概念萌芽Anthropic在介绍Claude Agent SDK时率先使用了“agent harness”这一表述描述的是一种通用的Agent运行框架。▍2026年2月5日 Mitchell Hashimoto 命名HashiCorp联合创始人、Terraform之父Mitchell Hashimoto发表博客在他的AI使用旅程中正式使用了“Harness Engineering”这个词将其定义为他AI采纳六阶段中的第五阶段。▍2026年2月11日 OpenAI实战报告引爆OpenAI发布了那篇“Harness Engineering: Leveraging Codex in an Agent-First World”用100万行零手动代码的实战经验为这个概念做了背书。▍2026年2月至今 概念席卷行业Martin Fowler、LangChain、Anthropic等纷纷跟进Harness Engineering成为AI工程领域最热门的讨论话题之一。Mitchell Hashimoto给这个概念的定义极其朴素每次Agent犯了一个错你就花时间去构建一个机制确保它再也不会犯同样的错。这就是Harness Engineering。他在自己的终端模拟器Ghostty项目中维护了一个AGENTS.md文件其中每一行都对应着Agent过去犯过的一个具体错误以及相应的预防指令。这些规则会随着时间不断积累形成一套越来越可靠的约束体系。02 一个核心公式要理解Harness Engineering先记住一个公式Agent Model Harness 模型提供智能Harness让智能产生价值LangChain的Vivek Trivedy提出了一个干脆利落的划分如果不是模型本身那就是Harness。一个原始的语言模型不是Agent。当Harness赋予它状态管理、工具调用、反馈回路和可执行的约束之后它才成为Agent。这个公式的深意在于它把我们的注意力从“如何让模型更聪明”转移到了“如何构建更好的系统”。在很多实际场景中优化Harness带来的收益远远超过更换更大的模型。03 OpenAI的100万行实验OpenAI的这个实验是目前Harness Engineering最有说服力的案例。他们给自己设定了一个激进的约束人类不写任何代码。人类只负责设计环境、表达意图、构建反馈回路代码全部由Codex Agent生成。100万 行代码 · 零手动编写1500 个PR · 5个月合并10× 相比手动编码的速度一开始进展并不快不是因为Codex不行而是因为环境规格不够清晰。Agent缺乏工具、缺乏抽象、缺乏内部结构。每当出了问题答案从来不是“再试一次”而是“Agent缺了什么能力我们怎样让这个能力变得可读、可执行”他们首先尝试了“一个超大AGENTS.md搞定一切”的方案结果可想而知——上下文窗口被挤爆当所有东西都标注为“重要”时等于什么都不重要了。这份大而全的文档迅速变成了一座过时规则的坟场。最终他们转向了一种“目录索引”式的方案AGENTS.md只有大约100行像一张地图指向仓库中docs/目录下更深层的设计文档、架构规范和执行计划。这些文档是Agent的“真相单一来源”——如果一个决策只存在于Slack聊天或Google Doc里对Agent来说它就不存在。一条关键原则从Agent的角度看任何它无法在上下文中访问的信息就等于不存在。仓库必须成为唯一的真相来源。他们还建立了严格的分层架构——每个业务域内的代码只能按固定的层级顺序依赖Types → Config → Repo → Service → Runtime → UI任何违规都通过自定义Linter和结构化测试自动拦截。这种架构约束在传统团队里可能要等到几百人规模才会推行但在Agent主导的世界里它是第一天就需要的前提条件。OpenAI 分层架构约束示意 Types → Config → Repo → Service → Runtime → UI 每层只能依赖左侧层级 · 由自定义Linter和结构化测试强制执行最有意思的一个细节团队起初每周五花20%的时间手动清理“AI slop”Agent生成的低质量代码。后来他们把这个过程也自动化了——编写清理规则让后台Agent定期扫描代码库中的偏差自动提交修复PR。大多数清理PR在不到一分钟内完成审查和合并。04 Harness的四根支柱综合OpenAI、Hashimoto和Martin Fowler站点上Birgitta Böckeler的分析一个Harness由四个核心部分组成 架构约束 不是靠提示词告诉Agent“写好代码”而是机械地强制执行什么是好代码。通过Linter、结构测试和CI验证把架构规则变成不可逾越的栅栏。️ 上下文工程 精心策划Agent能看到的信息——不是越多越好而是在合适的时机提供合适的上下文。结构化文档、渐进式披露、版本化的知识库。 反馈回路 Agent写完代码后自我审查、请求其他Agent审查、响应反馈并迭代修改循环直到所有审查者满意。人类只在真正需要判断力的节点介入。 熵管理 AI生成的代码库会像所有系统一样积累熵——文档漂移、命名约定分化、死代码堆积。定期运行清理Agent像“垃圾回收”一样对抗衰退。这四根支柱之间不是独立运转的而是一个持续互动的有机体。Agent的失败会暴露环境中缺失的东西更好的环境则让管理工作阻力更小。05 不换模型只换Harness如果前面的理论还不够说服力LangChain用一组数字做了最有力的注脚。他们的编码Agent deepagents-cli在Terminal Bench 2.0一个业界标准的Agent编码基准测试上从排名30名开外一路冲到了前5——模型没换全程使用同一个GPT-5.2-Codex。分数从52.8%提升到66.5%提高了13.7个百分点。他们调整的只有三个变量系统提示词、工具和中间件钩子。最常见的Agent失败模式说出来有点可笑Agent写完一个方案回头看了看自己的代码觉得“看起来不错”就停了。没有真正跑测试全凭感觉。LangChain通过在Harness中强制引入“写代码-验证-修复”循环彻底解决了这个问题。另一个数据更惊人安全研究员Can Bölük测试了16个模型在不同编辑格式下的表现其中Grok Code Fast 1这个模型仅仅是改变了编辑格式给每行代码加了一个2-3字符的哈希标识分数就从6.7%暴涨到68.3%——模型权重纹丝未动是Harness层面的改变带来了十倍的提升。模型是商品Harness才是护城河。这颠覆了一个普遍认知——在AI编码领域与其等待下一代模型发布不如先优化当前模型的Harness。模型切换意味着重新调整API密钥、提示词格式、Token限制等一系列成本而Harness优化可以在现有基础设施上持续增量改进。06 和传统工程概念的区别你可能会问这和Prompt Engineering、Context Engineering有什么不同三者不是替代关系而是层层递进的包含关系。概念关注范围核心问题Prompt Engineering单次推理的输入质量怎么把问题问清楚Context Engineering所有输入Token的系统设计模型在推理时应该看到什么Harness Engineering模型外部的整个运行系统系统应该阻止什么、测量什么、修复什么Prompt Engineering优化的是一次对话的质量。Context Engineering设计的是输入给模型的全部上下文。而Harness Engineering面向的是模型之外的所有——状态管理、工具接口、安全边界、反馈机制、持久化记忆。有些问题不是改善提示词就能解决的有些质量也不是改善上下文就能维持的。Harness处理的正是这些“模型外部”的系统性问题。07 给实践者的起步建议如果你已经在使用Claude Code、Cursor或Codex这里有几个可以立刻开始的动作第一建一个AGENTS.md或CLAUDE.md。在项目根目录放一个文件记录项目结构、构建命令、编码规范和禁止的模式。从小处开始然后每次Agent在同一个地方犯错就立刻加一条规则。第二把Pre-commit Hooks配好。确保Linter、格式化工具和类型检查在本地就能跑别等到CI。这些是给Agent最即时的反馈信号。第三投资测试覆盖率。测试是Agent用来验证自己工作的基础设施。没有测试的项目里Agent无法评估自己的输出质量——它只能“看起来觉得没问题”。第四用机制而非期望来约束架构。用自定义Linter或脚本来验证依赖方向、文件大小限制和命名约定。不要指望Agent自觉遵守——它是模式复制器看到什么模式就会复制什么模式好的坏的都一样。别等到完美再开始。OpenAI花了5个月迭代他们的HarnessHashimoto的AGENTS.md也是逐行积累出来的。关键不在于一步到位而在于每次失败后都做出系统级的改进。这种改进会复利式地叠加——每一条新规则适用于所有未来的Agent运行。08 未来往哪走这个学科还在快速演化中几个值得关注的方向正在浮现。随着模型本身在规划、自我验证和长周期连贯性方面不断进步一部分今天属于Harness的职责会被“吸收”进模型内部。但就像Prompt Engineering在模型越来越强的今天仍然有价值一样Harness Engineering大概率会持续存在——围绕模型搭建可靠系统这个需求不会消失。Böckeler在Martin Fowler网站上提出了一个还没有答案的棘手问题所有成功案例要么是全新项目要么是团队从零构建自己的Harness。如何把这些技术应用到一个有十年历史、缺乏架构约束、测试不全、文档残缺的老代码库上这就好比在一个从来没跑过静态分析的代码库上第一次运行分析工具——你会被告警淉没。改造存量系统的Harness Engineering这条路还在摸索中。还有一种更深层的思考值得留意。“Harness”这个词本身暗含了一种控制叙事——我们在“驾驭”一个强大但需要管束的力量。有学者提出随着AI系统展现出越来越多我们通常与理解力和判断力联系在一起的特征这个比喻是否还合适当我们用“马具”来思考AI时是否无形中限制了我们想象人机协作未来的方式不管怎样这些讨论本身就说明了一件事我们正站在一个新学科形成的起点。就像DevOps在十多年前重新定义了开发和运维的关系一样Harness Engineering正在重新定义人类工程师与AI Agent之间的分工。 马不需要理解目的地但骑手需要理解这匹马。 好的Harness不是限制Agent的能力而是把它的能力引向正确的方向。软件工程的核心从来不只是写代码。在AI Agent时代这一点只会更加明显。工程师最不可替代的能力是理解系统、设计约束、构建让机器可靠工作的环境。这不是一项正在消失的技能而是一项正在升维的技能。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容