Harness Engineering到底是什么？概念、实战与争议，一次全部讲清楚

发布时间：2026/5/28 9:48:24

本文整理自 B 站「马克的技术工作坊」的 Harness Engineering 视频通过视频总结工具Ai好记进行视频转图文整理以下为精炼整理后的内容。目录引言与背景前置概念Prompt Engineering前置概念Context EngineeringHarness Engineering 核心概念解析三代技术的演进关系OpenAI 的 Harness Engineering 实践Anthropic 的 Harness Engineering 实践争议与思考继 Prompt Engineering 之后AI 圈最近又冒出了一个新名词叫 Harness Engineering。从 2026 年 2 月开始这个词频繁地在 AI 圈里出现。OpenAI 专门发了一篇文章讲他们怎么用 Harness Engineering 在 5 个月内写了将近 100万行代码。Anthropic 也紧接着发文分享了自己如何使用精心设计的 harness 架构来驱动 agent 开发应用。但与此同时也有不少人认为这不过是个噱头而已换汤不换药。那 Harness Engineering 到底是什么它跟 Prompt Engineering 和 ContextEngineering 又有什么关系Harness Engineering 是真正的技术突破还是只是 AI 圈的概念炒作前置概念Prompt Engineering在讲 Harness Engineering 之前不妨先讲讲它的两个「前任」分别是 Prompt Engineering 和 Context Engineering。对这两个概念比较熟悉的同学可以直接跳到下一个章节。首先是 Prompt Engineering。这里的 Prompt你可以简单理解成用户发给大模型的话。Prompt Engineering 就是一门专门研究怎么把话说清楚的技术。比如我们可以向大模型提问「帮我起个名字。」大模型就会给出答案比如什么花花、小白之类的。不过这些答案可能都无法让你满意因为你家的猫可能是橘色的花花或小白都与橘色这个颜色相冲突。大模型为什么会给你错误的答案呢这是因为我们没有在 Prompt 里面给大模型足够的信息。既然问题出在 Prompt 上面那解决问题的关键自然也在 Prompt 上面。说得再具体一点那就是我们需要学会如何更精准地表达自己的需求。这就引出了 Prompt Engineering。Prompt Engineering 就是专门用来研究怎么把话说清楚的。按照 Prompt Engineering 的理念我们需要发送的 Prompt 就应该是这样子的「帮我起个名字两个字需要体现出它活泼爱玩的性格。」这时候大模型就可以给出一些更让你满意的名字了。没错说白了Prompt Engineering 就是一门调整大模型提示词的技术。对就是这么简单。不过如今 Prompt Engineering 已经很少被单独提起了。一方面它的门槛实在太低了另一方面模型本身的能力也变得更强了很多时候不需要在 Prompt 上调来调去就能给出不错的回答。前置概念Context Engineering下面来看看 Context Engineering。我们还是用小猫来举例。假设你拿到了小猫的名字之后还继续跟大模型聊天。比如你问它「那它平时吃什么好呢」这就是我们的 Prompt 了。那现在重点来了我们此时要发给大模型的其实不仅仅有这个 Prompt还有之前的对话历史。这样大模型才知道这个新问题里面的「它」指代的是什么。无论是 Prompt 还是对话历史它们都是大模型所接收到的信息。我们把大模型所接收的所有信息起个名字就叫 Context。Context 是有容量上限的。所以我们不可能无止境地往里面塞东西我们需要精心设计 Context 里面的内容。这就叫 Context Engineering。Context Engineering 有很多具体的方法。比如说其中一个非常经典的技术就是上下文压缩。之前不是说我们会把对话历史放在 context 里面吗我们跟模型越聊越多对话历史也会越来越多。当超过某个阈值的时候我们就可以使用上下文压缩技术把之前的对话历史做个总结以防止 context 里面的内容过多影响回答效果。除了上下文压缩之外Context Engineering 还有很多其他的方法比如说动态检索外部资料、渐进式披露等等。可以看出 Context Engineering 还是挺能整活的搞出了这么多东西。不过吧这依然不是重点。因为大家发现啊Context Engineering 这门技术的效果是有一定的上限的。为了进一步榨干大模型的潜力呢AI 圈却又整出了新花样这个就引出了我们今天真正的主角——Harness Engineering。Harness Engineering 核心概念解析要搞明白 Harness Engineering 这个概念我们就得先从「harness」这个单词说起。这个词在日常生活中其实不太常见很多人可能也是第一次听说。「harness」的本意其实是「马具」的意思。大家看这是一匹马。而 harness 或者说马具就是套在马上用来控制马的那些装备比如说缰绳、头套等等。虽然马非常强大但是我们必须借助马具的力量来限制马的活动这样我们才能够让马为我们人类所用。好现在我们把马具从马身上单独拆下来做一个类比。左边这匹脱掉马具的马对应的就 AI 领域里面的大模型。你想大模型是不是特别强尤其是像顶级模型这样能干的事情可太多了。但大模型就像马一样如果我们不对它加以干预任由大模型自己去运行和发挥那它就会像脱缰的野马一样发散思维甚至产生严重的幻觉最终根本无法稳定地给我们想要的结果。所以我们必须要把大模型给控制住就像用缰绳来控制马一样。而这套用来控制大模型的系统就被称为了 Harness。没错Harness 就对应了这个缰绳。好Harness 就是 Agent 里面用来控制和驾驭大模型的系统。所以呢从这一点出发我们就能推导出 Harness 的公式。也就是 Harness Agent - Model。换句话说一个完整的 Agent 减去里面的大模型剩下的所有东西都是 Harness。不过需要注意的是Harness Engineering 是一个非常新的概念目前业界呢还没有形成严格的定义。这个公式只是目前大多数人比较认可的一种说法并非严格的学术定义所以只要不是大模型就是 Harness。三代技术的演进关系从这里可以看出Prompt Engineering、Context Engineering 和 Harness Engineering 更像是一种层层递进、研究范围不断向外扩展的关系。它们关注的问题呢是越来越大越来越广。Prompt Engineering研究如何问问题优化单次输入Context Engineering研究如何给信息管理输入上下文Harness Engineering研究如何搭系统构建整个 Agent 系统OpenAI 的 Harness Engineering 实践OpenAI 在实践中围绕大模型搭建了完善的 Harness 系统包括上下文管理、验证反馈和技术债清理三大方向。核心理念是「Human Steer, Agent Execute」人类掌舵Agent 执行在 5 个月内由 AI 生成了近 100 万行代码的真实产品。他们的实践表明软件工程师的核心职责发生了转变从亲自编写每一行代码、调试每一个错误转变为为 Agent 设计和搭建稳定可靠的支撑系统与框架。Anthropic 的 Harness Engineering 实践Anthropic 提出了经典的 Harness 架构包含 Planner规划、Generator生成和 Evaluator评估三个 Agent 协作。Planner 负责将模糊的用户需求拆解为清晰具体的功能列表Generator 根据功能列表生成代码Evaluator作为独立的第三方负责评估 Generator 产出的代码质量提供客观反馈形成「生成-评估-修改」的闭环。有趣的是随着模型能力如 Opus 4.6的持续增强部分 Harness 设计的必要性可能会降低。更强的模型可以自行决定任务执行顺序不再需要强制的 Harness 约束。这说明模型能力的提升可以替代部分 Harness 的功能。争议与思考Harness Engineering 并非发明全新技术而是将现有的工具链、测试、规划、评估等方法系统化地组织起来形成一套可优化、可设计的工程框架。「不是噱头」的依据OpenAI 和 Anthropic 的实践已证明Harness Engineering 能显著提升 Agent 的稳定性、自动化程度和生产力是实实在在的工程成果。「不是终局」的依据随着未来模型能力持续增强许多当前用于约束、纠正模型的 Harness 设计可能会被模型自身能力吸收其形态会进化甚至部分变得不再必要。个人观点总结Harness Engineering 不是噱头但也并非终局。它更像是一个在模型能力尚未完全成熟时期的过渡性关键技术但在当前阶段对释放 AI 生产力至关重要。以上内容由Ai好记转录整理。Ai好记是一款音视频转图文笔记的 AI 学习助手支持 B站、抖音、小宇宙等平台链接及本地音视频文件转入后自动生成精华速览、思维导图和结构化笔记帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

NuNet主网上线：去中心化计算网络如何重塑AI算力与边缘计算

1. 从零到一：理解去中心化计算网络的核心价值在云计算主导了二十多年后，我们似乎已经习惯了这样一种模式：将数据和计算任务打包，发送到由少数几家巨头运营的、集中式的大型数据中心。这种模式带来了前所未有的便利和规模效应&…

2026/5/28 9:48:24 阅读更多

免费在线EPUB编辑器：在浏览器中轻松制作专业电子书

免费在线EPUB编辑器：在浏览器中轻松制作专业电子书【免费下载链接】EPubBuilder 一款在线的epub格式书籍编辑器项目地址: https://gitcode.com/gh_mirrors/ep/EPubBuilder 你是不是曾经想要制作一本精美的电子书，却被复杂的软件和繁琐的流程吓退…

2026/5/28 9:48:01 阅读更多

别再只做静态寻路了！用Unity Navigation系统实现《Among Us》式多角色分路巡逻与封锁机制

用Unity Navigation系统打造《Among Us》式多角色动态巡逻与封锁机制在派对游戏和非对称对抗游戏中，角色巡逻与区域封锁机制是营造紧张氛围的核心设计元素。《Among Us》中红色角色沿固定路线巡逻、蓝色角色动态设置路障改变通行区域的玩法，正是这种机制…

2026/5/28 9:47:18 阅读更多

AI代理自动化遇电话验证瓶颈？真实SIM卡API服务实战解决方案

1. 项目概述：当AI代理遇上电话验证墙如果你在2024年或2025年就开始尝试用Claude Code这类AI编程代理来自动化你的开发工作流，那你很可能已经撞上了一堵无形的墙。这堵墙不是代码逻辑错误，也不是API调用限制，而是一个看似简单、实则…

2026/5/28 10:47:11 阅读更多

2026年10款论文降AI率平台实测：从90%降至10%的宝藏之选

现在学校对 AIGC 的检测越来越严格，降低 AI 率成了毕业生最头疼的问题。我当初写论文的时候也踩了大坑，AI 率直接飙到 80% 多，自己熬夜一遍遍改，结果越改越糟，AI 率没降下来，查重率反而高得离谱&#xff0c…

2026/5/28 10:47:11 阅读更多

如何快速使用bert-tweet-italian-uncased-sentiment进行意大利语情感分析：完整指南 [特殊字符]

如何快速使用bert-tweet-italian-uncased-sentiment进行意大利语情感分析：完整指南 🚀 【免费下载链接】bert-tweet-italian-uncased-sentiment 项目地址: https://ai.gitcode.com/hf_mirrors/Changchun_Ascend/bert-tweet-italian-uncased-sentiment…

2026/5/28 10:46:09 阅读更多

Unity 2020安卓打包：从JDK 8u291到NDK r19的‘复古’配置指南（避坑AndroidStudio）

Unity 2020安卓打包：复古配置全攻略与疑难排解当你在2024年打开一个Unity 2020项目，准备为安卓平台打包时，可能会遇到一系列令人困惑的错误提示。这不是你的技术问题，而是一场版本兼容性的"时间旅行"挑战。本文将带你…

2026/5/28 10:46:09 阅读更多

AI驱动的生理监测模型：从信号采集到健康预判的技术体系

引言随着可穿戴设备、边缘计算与深度学习的融合发展，生理监测正从传统的“阶段性体检”迈向“连续性、无感化、智能预警”的新阶段。AI生理监测模型的核心任务是从心电（ECG）、脑电（EEG）、光电容积描记（PPG&…

2026/5/28 10:46:09 阅读更多

Codesys on Linux ARM：除了软PLC，你还能用它轻松搞一个带Web可视化界面的物联网网关

Codesys on Linux ARM：从软PLC到物联网网关的跨界实践在工业自动化和物联网技术快速融合的今天，传统的边界正在被不断打破。当我们谈论Codesys时，大多数工程师的第一反应可能还停留在"软PLC开发环境"的认知层面。但事实上&#xf…

2026/5/28 10:44:04 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章

NuNet主网上线：去中心化计算网络如何重塑AI算力与边缘计算

免费在线EPUB编辑器：在浏览器中轻松制作专业电子书

别再只做静态寻路了！用Unity Navigation系统实现《Among Us》式多角色分路巡逻与封锁机制

AI代理自动化遇电话验证瓶颈？真实SIM卡API服务实战解决方案

2026年10款论文降AI率平台实测：从90%降至10%的宝藏之选

如何快速使用bert-tweet-italian-uncased-sentiment进行意大利语情感分析：完整指南 [特殊字符]

Unity 2020安卓打包：从JDK 8u291到NDK r19的‘复古’配置指南（避坑AndroidStudio）

AI驱动的生理监测模型：从信号采集到健康预判的技术体系

Codesys on Linux ARM：除了软PLC，你还能用它轻松搞一个带Web可视化界面的物联网网关

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

Windows Defender终极恢复指南：5种强力方法解决禁用问题

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥