Harness Engineering 当AI学会写代码，工程师该做什么？

发布时间：2026/6/2 2:15:34

2025年是AI Agent证明自己能写代码的一年。2026年我们意识到一个更深刻的事实——Agent不是难题围绕它的系统才是。今年2月一件事在全球开发者社区炸开了锅OpenAI的一个内部团队用了5个月时间在不写一行手动代码的前提下让Codex Agent生成了一个超过100万行代码的真实产品。这个产品有内部日活用户、有外部测试者能部署、能跑起来、也能出bug——然后Agent自己修。他们的工程师在做什么不是写代码而是设计“环境”——约束、反馈回路、文档结构、架构规则。这套让Agent保持高效和可靠的系统业界现在有了一个新名字Harness。而围绕它的工程实践就叫做Harness Engineering。01 这个词是怎么来的Harness的本意是“马具”——缰绳、鞍、嚼子——整套用来引导一匹强壮但不会自己选方向的马的装备。这个比喻放在AI Agent身上恰如其分模型是那匹马强大、快速但不知道往哪跑。Harness就是让它跑对方向的一整套系统。▍2025年末概念萌芽Anthropic在介绍Claude Agent SDK时率先使用了“agent harness”这一表述描述的是一种通用的Agent运行框架。▍2026年2月5日 Mitchell Hashimoto 命名HashiCorp联合创始人、Terraform之父Mitchell Hashimoto发表博客在他的AI使用旅程中正式使用了“Harness Engineering”这个词将其定义为他AI采纳六阶段中的第五阶段。▍2026年2月11日 OpenAI实战报告引爆OpenAI发布了那篇“Harness Engineering: Leveraging Codex in an Agent-First World”用100万行零手动代码的实战经验为这个概念做了背书。▍2026年2月至今概念席卷行业Martin Fowler、LangChain、Anthropic等纷纷跟进Harness Engineering成为AI工程领域最热门的讨论话题之一。Mitchell Hashimoto给这个概念的定义极其朴素每次Agent犯了一个错你就花时间去构建一个机制确保它再也不会犯同样的错。这就是Harness Engineering。他在自己的终端模拟器Ghostty项目中维护了一个AGENTS.md文件其中每一行都对应着Agent过去犯过的一个具体错误以及相应的预防指令。这些规则会随着时间不断积累形成一套越来越可靠的约束体系。02 一个核心公式要理解Harness Engineering先记住一个公式Agent Model Harness 模型提供智能Harness让智能产生价值LangChain的Vivek Trivedy提出了一个干脆利落的划分如果不是模型本身那就是Harness。一个原始的语言模型不是Agent。当Harness赋予它状态管理、工具调用、反馈回路和可执行的约束之后它才成为Agent。这个公式的深意在于它把我们的注意力从“如何让模型更聪明”转移到了“如何构建更好的系统”。在很多实际场景中优化Harness带来的收益远远超过更换更大的模型。03 OpenAI的100万行实验OpenAI的这个实验是目前Harness Engineering最有说服力的案例。他们给自己设定了一个激进的约束人类不写任何代码。人类只负责设计环境、表达意图、构建反馈回路代码全部由Codex Agent生成。100万行代码 · 零手动编写1500 个PR · 5个月合并10× 相比手动编码的速度一开始进展并不快不是因为Codex不行而是因为环境规格不够清晰。Agent缺乏工具、缺乏抽象、缺乏内部结构。每当出了问题答案从来不是“再试一次”而是“Agent缺了什么能力我们怎样让这个能力变得可读、可执行”他们首先尝试了“一个超大AGENTS.md搞定一切”的方案结果可想而知——上下文窗口被挤爆当所有东西都标注为“重要”时等于什么都不重要了。这份大而全的文档迅速变成了一座过时规则的坟场。最终他们转向了一种“目录索引”式的方案AGENTS.md只有大约100行像一张地图指向仓库中docs/目录下更深层的设计文档、架构规范和执行计划。这些文档是Agent的“真相单一来源”——如果一个决策只存在于Slack聊天或Google Doc里对Agent来说它就不存在。一条关键原则从Agent的角度看任何它无法在上下文中访问的信息就等于不存在。仓库必须成为唯一的真相来源。他们还建立了严格的分层架构——每个业务域内的代码只能按固定的层级顺序依赖Types → Config → Repo → Service → Runtime → UI任何违规都通过自定义Linter和结构化测试自动拦截。这种架构约束在传统团队里可能要等到几百人规模才会推行但在Agent主导的世界里它是第一天就需要的前提条件。OpenAI 分层架构约束示意 Types → Config → Repo → Service → Runtime → UI 每层只能依赖左侧层级 · 由自定义Linter和结构化测试强制执行最有意思的一个细节团队起初每周五花20%的时间手动清理“AI slop”Agent生成的低质量代码。后来他们把这个过程也自动化了——编写清理规则让后台Agent定期扫描代码库中的偏差自动提交修复PR。大多数清理PR在不到一分钟内完成审查和合并。04 Harness的四根支柱综合OpenAI、Hashimoto和Martin Fowler站点上Birgitta Böckeler的分析一个Harness由四个核心部分组成架构约束不是靠提示词告诉Agent“写好代码”而是机械地强制执行什么是好代码。通过Linter、结构测试和CI验证把架构规则变成不可逾越的栅栏。️ 上下文工程精心策划Agent能看到的信息——不是越多越好而是在合适的时机提供合适的上下文。结构化文档、渐进式披露、版本化的知识库。反馈回路 Agent写完代码后自我审查、请求其他Agent审查、响应反馈并迭代修改循环直到所有审查者满意。人类只在真正需要判断力的节点介入。熵管理 AI生成的代码库会像所有系统一样积累熵——文档漂移、命名约定分化、死代码堆积。定期运行清理Agent像“垃圾回收”一样对抗衰退。这四根支柱之间不是独立运转的而是一个持续互动的有机体。Agent的失败会暴露环境中缺失的东西更好的环境则让管理工作阻力更小。05 不换模型只换Harness如果前面的理论还不够说服力LangChain用一组数字做了最有力的注脚。他们的编码Agent deepagents-cli在Terminal Bench 2.0一个业界标准的Agent编码基准测试上从排名30名开外一路冲到了前5——模型没换全程使用同一个GPT-5.2-Codex。分数从52.8%提升到66.5%提高了13.7个百分点。他们调整的只有三个变量系统提示词、工具和中间件钩子。最常见的Agent失败模式说出来有点可笑Agent写完一个方案回头看了看自己的代码觉得“看起来不错”就停了。没有真正跑测试全凭感觉。LangChain通过在Harness中强制引入“写代码-验证-修复”循环彻底解决了这个问题。另一个数据更惊人安全研究员Can Bölük测试了16个模型在不同编辑格式下的表现其中Grok Code Fast 1这个模型仅仅是改变了编辑格式给每行代码加了一个2-3字符的哈希标识分数就从6.7%暴涨到68.3%——模型权重纹丝未动是Harness层面的改变带来了十倍的提升。模型是商品Harness才是护城河。这颠覆了一个普遍认知——在AI编码领域与其等待下一代模型发布不如先优化当前模型的Harness。模型切换意味着重新调整API密钥、提示词格式、Token限制等一系列成本而Harness优化可以在现有基础设施上持续增量改进。06 和传统工程概念的区别你可能会问这和Prompt Engineering、Context Engineering有什么不同三者不是替代关系而是层层递进的包含关系。概念关注范围核心问题Prompt Engineering单次推理的输入质量怎么把问题问清楚Context Engineering所有输入Token的系统设计模型在推理时应该看到什么Harness Engineering模型外部的整个运行系统系统应该阻止什么、测量什么、修复什么Prompt Engineering优化的是一次对话的质量。Context Engineering设计的是输入给模型的全部上下文。而Harness Engineering面向的是模型之外的所有——状态管理、工具接口、安全边界、反馈机制、持久化记忆。有些问题不是改善提示词就能解决的有些质量也不是改善上下文就能维持的。Harness处理的正是这些“模型外部”的系统性问题。07 给实践者的起步建议如果你已经在使用Claude Code、Cursor或Codex这里有几个可以立刻开始的动作第一建一个AGENTS.md或CLAUDE.md。在项目根目录放一个文件记录项目结构、构建命令、编码规范和禁止的模式。从小处开始然后每次Agent在同一个地方犯错就立刻加一条规则。第二把Pre-commit Hooks配好。确保Linter、格式化工具和类型检查在本地就能跑别等到CI。这些是给Agent最即时的反馈信号。第三投资测试覆盖率。测试是Agent用来验证自己工作的基础设施。没有测试的项目里Agent无法评估自己的输出质量——它只能“看起来觉得没问题”。第四用机制而非期望来约束架构。用自定义Linter或脚本来验证依赖方向、文件大小限制和命名约定。不要指望Agent自觉遵守——它是模式复制器看到什么模式就会复制什么模式好的坏的都一样。别等到完美再开始。OpenAI花了5个月迭代他们的HarnessHashimoto的AGENTS.md也是逐行积累出来的。关键不在于一步到位而在于每次失败后都做出系统级的改进。这种改进会复利式地叠加——每一条新规则适用于所有未来的Agent运行。08 未来往哪走这个学科还在快速演化中几个值得关注的方向正在浮现。随着模型本身在规划、自我验证和长周期连贯性方面不断进步一部分今天属于Harness的职责会被“吸收”进模型内部。但就像Prompt Engineering在模型越来越强的今天仍然有价值一样Harness Engineering大概率会持续存在——围绕模型搭建可靠系统这个需求不会消失。Böckeler在Martin Fowler网站上提出了一个还没有答案的棘手问题所有成功案例要么是全新项目要么是团队从零构建自己的Harness。如何把这些技术应用到一个有十年历史、缺乏架构约束、测试不全、文档残缺的老代码库上这就好比在一个从来没跑过静态分析的代码库上第一次运行分析工具——你会被告警淉没。改造存量系统的Harness Engineering这条路还在摸索中。还有一种更深层的思考值得留意。“Harness”这个词本身暗含了一种控制叙事——我们在“驾驭”一个强大但需要管束的力量。有学者提出随着AI系统展现出越来越多我们通常与理解力和判断力联系在一起的特征这个比喻是否还合适当我们用“马具”来思考AI时是否无形中限制了我们想象人机协作未来的方式不管怎样这些讨论本身就说明了一件事我们正站在一个新学科形成的起点。就像DevOps在十多年前重新定义了开发和运维的关系一样Harness Engineering正在重新定义人类工程师与AI Agent之间的分工。马不需要理解目的地但骑手需要理解这匹马。好的Harness不是限制Agent的能力而是把它的能力引向正确的方向。软件工程的核心从来不只是写代码。在AI Agent时代这一点只会更加明显。工程师最不可替代的能力是理解系统、设计约束、构建让机器可靠工作的环境。这不是一项正在消失的技能而是一项正在升维的技能。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

别再手动写注释了！用LaTeX的algorithm2e宏包 cp命令，5分钟搞定算法伪代码注释

LaTeX算法注释革命：用algorithm2e宏包实现伪代码自动化排版在学术论文和技术报告的写作中，算法伪代码的呈现质量直接影响读者对研究内容的理解。传统手动添加注释的方式不仅效率低下，还经常面临格式错乱、对齐困难等问题。algorithm2e宏包提…

2026/5/31 16:05:45 阅读更多

从‘服务器忙’到‘条件不满足’：一个嵌入式软件工程师眼中的UDS NRC设计哲学

从‘服务器忙’到‘条件不满足’：一个嵌入式软件工程师眼中的UDS NRC设计哲学在汽车电子控制单元（ECU）的开发中，诊断协议栈的实现往往是最容易被忽视却又至关重要的部分。作为嵌入式软件工程师，我们常常花费大量时间优…

2026/6/1 16:22:56 阅读更多

用HTML Canvas和JavaScript打造可交互的网页烟花秀（附完整源码）

用HTML Canvas和JavaScript打造可交互的网页烟花秀（附完整源码） 每当节日来临，烟花总能带来独特的视觉盛宴。作为前端开发者，我们能否用代码重现这种绚丽效果？本文将带你深入探索如何利用HTML5 Canvas和原生JavaScrip…

2026/6/1 17:22:00 阅读更多

告别命令行恐惧：用GParted在Ubuntu上无损调整磁盘分区（保姆级图文教程）

告别命令行恐惧：用GParted在Ubuntu上无损调整磁盘分区（保姆级图文教程） 刚接触Linux的新手往往对命令行工具望而生畏，尤其是在处理磁盘分区这种高风险操作时。想象一下：你刚装好Ubuntu系统，却发现根分区(/…

2026/6/2 2:14:10 阅读更多

Qwen3.6-35B-A3B-GGUF提示工程完全指南：图像文本交互最佳实践

Qwen3.6-35B-A3B-GGUF提示工程完全指南：图像文本交互最佳实践【免费下载链接】Qwen_Qwen3.6-35B-A3B-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-GGUF是一款强大的多模态AI模型，专…

2026/6/2 2:13:09 阅读更多

技术探索：django-tables2如何重新定义Django数据表格架构

技术探索：django-tables2如何重新定义Django数据表格架构【免费下载链接】django-tables2 django-tables2 - An app for creating HTML tables 项目地址: https://gitcode.com/gh_mirrors/dj/django-tables2 在Django生态系统中，数据表格的构建一…

2026/6/2 2:12:08 阅读更多

输入校验（为什么在微信里面打了一堆空格，键盘上的 “发送” 变成了 “换行”，右边也没有独立发送按钮想点发送，发现按钮是灰的或者直接消失了）

为什么在微信里面打了一堆空格，键盘上的 “发送” 变成了 “换行”，右边也没有独立发送按钮想点发送，发现按钮是灰的或者直接消失了： 为什么你打了空格，发送按钮直接没了？ 这就是微信前端输入校验的典型表…

2026/6/2 2:12:08 阅读更多

时间序列预测第一步：用ACF/PACF为你的销售数据选对ARIMA参数（附完整Python代码）

时间序列预测实战：用ACF/PACF为销售数据精准匹配ARIMA参数零售行业的销售预测从来不是简单的数学游戏。当我在去年为一家连锁超市优化库存系统时，发现他们的预测误差高达30%，原因正是盲目套用默认参数的ARIMA模型。本文将分享如何像专业数据分…

2026/6/2 2:11:07 阅读更多

如何永久保存微信聊天记录：WeChatMsg完整数据导出方案

如何永久保存微信聊天记录：WeChatMsg完整数据导出方案【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/WeCha…

2026/6/2 2:10:27 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

相关文章