Harness Engineering到底是什么?概念、实战与争议,一次全部讲清楚 本文整理自 B 站「马克的技术工作坊」的 Harness Engineering 视频通过视频总结工具Ai好记进行视频转图文整理以下为精炼整理后的内容。 目录引言与背景前置概念Prompt Engineering前置概念Context EngineeringHarness Engineering 核心概念解析三代技术的演进关系OpenAI 的 Harness Engineering 实践Anthropic 的 Harness Engineering 实践争议与思考继 Prompt Engineering 之后AI 圈最近又冒出了一个新名词叫 Harness Engineering。从 2026 年 2 月开始这个词频繁地在 AI 圈里出现。OpenAI 专门发了一篇文章讲他们怎么用 Harness Engineering 在 5 个月内写了将近 100万行代码。Anthropic 也紧接着发文分享了自己如何使用精心设计的 harness 架构来驱动 agent 开发应用。但与此同时也有不少人认为这不过是个噱头而已换汤不换药。那 Harness Engineering 到底是什么它跟 Prompt Engineering 和 ContextEngineering 又有什么关系Harness Engineering 是真正的技术突破还是只是 AI 圈的概念炒作前置概念Prompt Engineering在讲 Harness Engineering 之前不妨先讲讲它的两个「前任」分别是 Prompt Engineering 和 Context Engineering。对这两个概念比较熟悉的同学可以直接跳到下一个章节。首先是 Prompt Engineering。这里的 Prompt你可以简单理解成用户发给大模型的话。Prompt Engineering 就是一门专门研究怎么把话说清楚的技术。比如我们可以向大模型提问「帮我起个名字。」大模型就会给出答案比如什么花花、小白之类的。不过这些答案可能都无法让你满意因为你家的猫可能是橘色的花花或小白都与橘色这个颜色相冲突。大模型为什么会给你错误的答案呢这是因为我们没有在 Prompt 里面给大模型足够的信息。既然问题出在 Prompt 上面那解决问题的关键自然也在 Prompt 上面。说得再具体一点那就是我们需要学会如何更精准地表达自己的需求。这就引出了 Prompt Engineering。Prompt Engineering 就是专门用来研究怎么把话说清楚的。按照 Prompt Engineering 的理念我们需要发送的 Prompt 就应该是这样子的「帮我起个名字两个字需要体现出它活泼爱玩的性格。」这时候大模型就可以给出一些更让你满意的名字了。没错说白了Prompt Engineering 就是一门调整大模型提示词的技术。对就是这么简单。不过如今 Prompt Engineering 已经很少被单独提起了。一方面它的门槛实在太低了另一方面模型本身的能力也变得更强了很多时候不需要在 Prompt 上调来调去就能给出不错的回答。前置概念Context Engineering下面来看看 Context Engineering。我们还是用小猫来举例。假设你拿到了小猫的名字之后还继续跟大模型聊天。比如你问它「那它平时吃什么好呢」这就是我们的 Prompt 了。那现在重点来了我们此时要发给大模型的其实不仅仅有这个 Prompt还有之前的对话历史。这样大模型才知道这个新问题里面的「它」指代的是什么。无论是 Prompt 还是对话历史它们都是大模型所接收到的信息。我们把大模型所接收的所有信息起个名字就叫 Context。Context 是有容量上限的。所以我们不可能无止境地往里面塞东西我们需要精心设计 Context 里面的内容。这就叫 Context Engineering。Context Engineering 有很多具体的方法。比如说其中一个非常经典的技术就是上下文压缩。之前不是说我们会把对话历史放在 context 里面吗我们跟模型越聊越多对话历史也会越来越多。当超过某个阈值的时候我们就可以使用上下文压缩技术把之前的对话历史做个总结以防止 context 里面的内容过多影响回答效果。除了上下文压缩之外Context Engineering 还有很多其他的方法比如说动态检索外部资料、渐进式披露等等。可以看出 Context Engineering 还是挺能整活的搞出了这么多东西。不过吧这依然不是重点。因为大家发现啊Context Engineering 这门技术的效果是有一定的上限的。为了进一步榨干大模型的潜力呢AI 圈却又整出了新花样这个就引出了我们今天真正的主角——Harness Engineering。Harness Engineering 核心概念解析要搞明白 Harness Engineering 这个概念我们就得先从「harness」这个单词说起。这个词在日常生活中其实不太常见很多人可能也是第一次听说。「harness」的本意其实是「马具」的意思。大家看这是一匹马。而 harness 或者说马具就是套在马上用来控制马的那些装备比如说缰绳、头套等等。虽然马非常强大但是我们必须借助马具的力量来限制马的活动这样我们才能够让马为我们人类所用。好现在我们把马具从马身上单独拆下来做一个类比。左边这匹脱掉马具的马对应的就 AI 领域里面的大模型。你想大模型是不是特别强尤其是像顶级模型这样能干的事情可太多了。但大模型就像马一样如果我们不对它加以干预任由大模型自己去运行和发挥那它就会像脱缰的野马一样发散思维甚至产生严重的幻觉最终根本无法稳定地给我们想要的结果。所以我们必须要把大模型给控制住就像用缰绳来控制马一样。而这套用来控制大模型的系统就被称为了 Harness。没错Harness 就对应了这个缰绳。好Harness 就是 Agent 里面用来控制和驾驭大模型的系统。所以呢从这一点出发我们就能推导出 Harness 的公式。也就是 Harness Agent - Model。换句话说一个完整的 Agent 减去里面的大模型剩下的所有东西都是 Harness。不过需要注意的是Harness Engineering 是一个非常新的概念目前业界呢还没有形成严格的定义。这个公式只是目前大多数人比较认可的一种说法并非严格的学术定义所以只要不是大模型就是 Harness。三代技术的演进关系从这里可以看出Prompt Engineering、Context Engineering 和 Harness Engineering 更像是一种层层递进、研究范围不断向外扩展的关系。它们关注的问题呢是越来越大越来越广。Prompt Engineering研究如何问问题优化单次输入Context Engineering研究如何给信息管理输入上下文Harness Engineering研究如何搭系统构建整个 Agent 系统OpenAI 的 Harness Engineering 实践OpenAI 在实践中围绕大模型搭建了完善的 Harness 系统包括上下文管理、验证反馈和技术债清理三大方向。核心理念是「Human Steer, Agent Execute」人类掌舵Agent 执行在 5 个月内由 AI 生成了近 100 万行代码的真实产品。他们的实践表明软件工程师的核心职责发生了转变从亲自编写每一行代码、调试每一个错误转变为为 Agent 设计和搭建稳定可靠的支撑系统与框架。Anthropic 的 Harness Engineering 实践Anthropic 提出了经典的 Harness 架构包含 Planner规划、Generator生成和 Evaluator评估三个 Agent 协作。Planner 负责将模糊的用户需求拆解为清晰具体的功能列表Generator 根据功能列表生成代码Evaluator作为独立的第三方负责评估 Generator 产出的代码质量提供客观反馈形成「生成-评估-修改」的闭环。有趣的是随着模型能力如 Opus 4.6的持续增强部分 Harness 设计的必要性可能会降低。更强的模型可以自行决定任务执行顺序不再需要强制的 Harness 约束。这说明模型能力的提升可以替代部分 Harness 的功能。争议与思考Harness Engineering 并非发明全新技术而是将现有的工具链、测试、规划、评估等方法系统化地组织起来形成一套可优化、可设计的工程框架。「不是噱头」的依据OpenAI 和 Anthropic 的实践已证明Harness Engineering 能显著提升 Agent 的稳定性、自动化程度和生产力是实实在在的工程成果。「不是终局」的依据随着未来模型能力持续增强许多当前用于约束、纠正模型的 Harness 设计可能会被模型自身能力吸收其形态会进化甚至部分变得不再必要。个人观点总结Harness Engineering 不是噱头但也并非终局。它更像是一个在模型能力尚未完全成熟时期的过渡性关键技术但在当前阶段对释放 AI 生产力至关重要。以上内容由Ai好记转录整理。Ai好记是一款音视频转图文笔记的 AI 学习助手支持 B站、抖音、小宇宙等平台链接及本地音视频文件转入后自动生成精华速览、思维导图和结构化笔记帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。