【Harness Engineering（1）】如何判断一个系统是否真的进入上下文工程

发布时间：2026/6/24 8:28:23

很多人理解上下文工程第一反应是这不就是把提示词写长一点吗这个理解看起来没错。很多上下文工程的结果确实是一段更长、更完整的输入。但如果只看到“长”就会错过真正的变化。上下文工程的关键不是输入变长了而是任务语境开始由系统负责维护。提示词工程解决的是“我怎么把话说清楚”。上下文工程解决的是“模型在每一步工作时应该知道什么、忽略什么、更新什么”。这两个问题听起来接近工程含义完全不同。一、问题不在提示词太短而在语境缺失书里用了一个购车例子用户问“理想 L6 怎么样”这个问题太短。模型可以回答很多参数比如空间、续航、智驾、价格、品牌定位。但这些回答大多是通用信息。因为模型不知道提问者是谁也不知道他在什么约束下做决策。他是第一次买车还是老车主换车预算是多少通勤还是长途家里几口人更看重操控、安全还是智能化能不能接受增程准备开几年这些信息没有进入上下文模型只能输出“看起来全面但对决策帮助有限”的回答。于是很多人会得出一个结论提示词要写长一点。这个结论只对了一半。如果用户自己补充通勤距离、家庭成员、预算、试驾反馈、电池供应商再问一次模型当然会答得更好。但这里真正发生的变化不是提示词从一句话变成了一段话而是决策所需的语境被补齐了。购车决策需要个人约束、评价维度、外部知识和现实反馈。预算、家庭成员、用车周期是约束安全、操控、续航是评价维度电池供应商、竞品差异是外部知识试驾感受和车主反馈是现实反馈。这些信息不是修辞而是判断材料。所以提示词工程和上下文工程的分界不在于字数而在于责任归属。如果语境完全靠用户一次性组织好那仍然主要是提示词工程。如果系统能主动识别缺什么、去哪里取、如何筛选、怎么更新再把它组织成模型下一步需要的输入这才进入上下文工程。二、上下文工程的分界是语境由系统维护换一个工程场景你让 Agent 分析一个陌生代码仓库并输出架构说明。最朴素的提示词可能是帮我分析这个项目的架构。这句话和“理想 L6 怎么样”一样太空。模型如果只能看到这一句话就只能给一套泛泛的方法论先看目录再看 README再看入口文件再看模块关系。你可以把提示词写长一点请分析项目架构包括目录结构、核心模块、数据流、启动方式、测试方式、潜在风险并用 Markdown 输出。这比第一版好但它仍然没有真正看到项目。它只是把输出格式讲清楚了。真正的上下文工程会让系统开始行动先列出仓库文件判断 README、配置文件、入口文件在哪里读取关键文件而不是读取所有文件根据发现继续追踪模块依赖把无关日志、重复文件、生成产物排除把中间发现压缩成结构化摘要最后再让模型写架构说明。这时模型的输入不是一条更长的提示词而是一份被系统逐步构建出来的任务语境。这个差异很关键。提示词工程仍然假设人已经知道该放什么信息并且能一次性组织好。上下文工程则承认复杂任务一开始往往不知道缺什么信息必须在任务推进中不断发现、筛选和修正。换句话说提示词工程是一次表达上下文工程是一个维护过程。三、判断一个系统是否进入上下文工程判断一个系统是否真正进入上下文工程可以先看三件事。第一信息是不是动态获得的。如果所有信息都由用户在开始时一次性提供它更接近提示词工程。如果系统会随着任务推进去读文件、查资料、调用 API、执行命令并把结果带回模型它开始具备上下文工程特征。但关键不在于有没有工具而在于工具结果是否改变了下一步判断。第二信息是不是经过选择和结构化。上下文不是资料越多越好。代码仓库里可能有源码、测试、缓存、构建产物、锁文件、日志。全部塞给模型只会让模型分心。上下文工程必须回答哪些信息进入当前窗口哪些只保留引用哪些应该丢弃。同样一批信息散乱堆放和结构化组织效果完全不同。好的上下文会区分目标、约束、事实、假设、观察、待验证问题。没有结构的上下文只是更大的文本块。第三信息是不是会随任务推进更新。复杂任务里早期判断经常会被后续观察修正。一开始以为项目是普通 Web 服务后来发现它是一个脚手架一开始以为性能问题在数据库后来发现慢在权限服务。上下文工程要允许旧判断被覆盖、压缩或标记为已失效。这也是很多长提示词失败的原因它们增加了信息量但没有提高决策质量。真正有用的上下文不是让模型知道更多而是让模型下一步更好判断。如果一段信息不能帮助下一步计划、执行、校验或收束它就可能只是噪声。四、上下文工程也有代价不是所有任务都需要上下文工程。如果任务是单轮、低风险、信息完整的提示词工程就够了。比如改写一段文案、总结一段已给出的文本、生成一个固定格式模板。这些任务没有复杂外部状态也不需要持续探索。这时引入 Agent、记忆、Skills、上下文压缩反而会让系统变重。上下文工程适合的是另一类任务目标开放信息不完整需要多步探索且中间观察会影响后续判断。比如代码仓库分析、深度研究、复杂运维诊断、企业知识问答、ChatBI 查询。这些任务的问题不在于“提示词还不够好”而在于“任务语境无法靠人一次性准备完整”。当然上下文工程不是免费午餐。它会引入系统复杂度。你需要工具、状态、记忆、压缩、选择策略还要处理失败路径。它也会引入错误传播。工具拿到的信息可能错摘要可能丢关键信息早期错误判断可能影响后续探索。它还会带来噪声治理问题。系统越主动收集信息越容易把无关内容带进上下文。所以上下文工程的目标不是“让系统尽可能多地收集信息”而是让系统在约束下持续维护一份足够好的工作记忆。足够好比看起来全面更重要。提示词工程的核心动作是把一句输入写清楚。上下文工程的核心动作是让系统持续维护任务语境。二者的分界不在长度而在过程信息是否由系统动态获得、筛选、结构化、更新并服务于下一步行动。如果只是把更多背景一次性塞进模型那只是长提示词。如果系统能在任务过程中持续改善模型的工作记忆那才是上下文工程。

Microchip Curiosity开发板硬件接口深度解析与实战应用指南

1. 项目概述：为什么你需要深入了解Curiosity开发板如果你刚开始接触Microchip的MCU，或者正在寻找一款成本友好、上手简单且扩展性不错的评估平台，那么Curiosity开发板系列大概率已经出现在你的备选清单里了。我手头有好几块不同型号的Curiosi…

2026/6/24 8:28:23 阅读更多

LLM 与 Agent 完整区分：一句话核心

LLM 与 Agent 完整区分：一句话核心LLM 语言大脑（只会思考、输出文字，被动问答） Agent 一套完整自主任务系统（LLM 记忆规划工具闭环执行，能主动做事） 二者不是同级概念：Agen…

2026/6/24 8:27:01 阅读更多

SpringBoot 定时任务统一处理微信提现、订单状态同步（无人饺子机后台实战）

文章标题SpringBoot Scheduled 5 秒轮询定时任务实战：微信企业付款提现异步对账自助机订单状态自动同步（含 Redis 队列、分表、微信转账回调处理）文章标签#SpringBoot #定时任务 Scheduled #微信企业付款对账 #Redis 队列 #分表 #自助售卖机…

2026/6/24 8:26:00 阅读更多

如何永久保存B站视频：m4s-converter完整使用指南

如何永久保存B站视频：m4s-converter完整使用指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的情况&#x…

2026/6/24 9:58:07 阅读更多

LeagueAkari：英雄联盟玩家的终极本地智能助手指南

LeagueAkari：英雄联盟玩家的终极本地智能助手指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 在英雄联盟的对局中，…

2026/6/24 9:58:07 阅读更多

从零到一：部署基于 FastAPI + ChromaDB + DeepSeek 的 RAG 知识库问答小程序

前言前段时间接到一个需求：为公司开发一款微信小程序，用户输入设备故障现象，系统能够自动匹配知识库并给出对应的原因分析和解决办法。简单说，就是做一个 AI 智能问答助手。经过一个多月的开发，项目终于成功部署上线了…

2026/6/24 9:57:20 阅读更多

解锁Windows网络测速神器：iperf3-win-builds全面指南

解锁Windows网络测速神器：iperf3-win-builds全面指南【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds 还在为网络速度不稳定而烦恼吗&…

2026/6/24 9:55:50 阅读更多

终极指南：如何免费解锁Microsoft 365完整功能

终极指南：如何免费解锁Microsoft 365完整功能【免费下载链接】ohook An universal Office "activation" hook with main focus of enabling full functionality of subscription editions 项目地址: https://gitcode.com/gh_mirrors/oh/ohook 还在…

2026/6/24 9:55:30 阅读更多

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南【免费下载链接】libdxfrw C library to read and write DXF/DWG files 项目地址: https://gitcode.com/gh_mirrors/li/libdxfrw 还在为CAD文件格式转换而烦恼吗？想象一下&…

2026/6/24 9:55:30 阅读更多

软件直方图管理化的分布分析

软件直方图管理化的分布分析：数据洞察的新视角在当今数据驱动的时代，软件直方图管理化的分布分析成为挖掘数据价值的重要工具。直方图通过可视化数据的分布特征，帮助用户快速识别趋势、异常和规律。无论是统计分析、质量管理还是业务决策&a…

2026/6/24 1:02:47 阅读更多

分布式系统一致性算法详解

分布式系统一致性算法详解在当今互联网和大数据时代，分布式系统已成为支撑高并发、高可用的核心技术架构。分布式系统的节点间通信存在延迟、故障等问题，如何保证数据一致性成为关键挑战。一致性算法正是解决这一问题的核心方法，它们确保系…

2026/6/24 1:04:08 阅读更多

Jenkins 管道(Pipeline)脚本编写坑

Jenkins管道(Pipeline)脚本编写坑：避坑指南与实践在现代DevOps实践中，Jenkins管道(Pipeline)因其灵活性和可扩展性成为持续集成与交付的核心工具。编写高效稳定的Pipeline脚本时，开发者常会遇到各种“坑”，轻则导致构建失败&…

2026/6/24 1:04:28 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/24 0:45:51 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/24 0:45:51 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 0:45:51 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/23 12:17:43 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/23 12:17:43 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/23 12:17:43 阅读更多

相关文章

Microchip Curiosity开发板硬件接口深度解析与实战应用指南

LLM 与 Agent 完整区分：一句话核心

SpringBoot 定时任务统一处理微信提现、订单状态同步（无人饺子机后台实战）

如何永久保存B站视频：m4s-converter完整使用指南

LeagueAkari：英雄联盟玩家的终极本地智能助手指南

从零到一：部署基于 FastAPI + ChromaDB + DeepSeek 的 RAG 知识库问答小程序

解锁Windows网络测速神器：iperf3-win-builds全面指南

终极指南：如何免费解锁Microsoft 365完整功能

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南

软件直方图管理化的分布分析

分布式系统一致性算法详解

Jenkins 管道(Pipeline)脚本编写坑

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因