[特殊字符] Harness 工程中怎么做 RAG

发布时间：2026/5/28 6:25:52

Harness Engineering 的关键不是继续等待更强模型而是把模型外部的工具、上下文、记忆、检索、状态和反馈循环工程化。过去两年Al 应用讨论很容易落在模型能力上哪个模型更会推理哪个模型更会写代码哪个模型幻觉更少。这个讨论当然重要但当我们真正把 Agent 放进工作环境中时很快会发现模型只是系统的一部分。OReilly 的一篇文章 Agent Harness Engineering 给了一个很直接的框架Agent Model Harness。这里的 Harness 指的是模型外部的整套支架。也就是说一个 raw model 并不会自动成为可工作的 Agent。只有当它被放进一套能给它状态、工具、反馈和约束的系统里才开始具备长期执行任务的能力。传统 RAG 的隐藏问题记忆在第一步就坏掉了然而当我们审视目前的知识型 Agent 实践时会发现这套支架经常在文档进入系统时就已经失效。这类问题在 RAG 系统里非常常见答案不理想时问题到底出在模型、向量数据库还是出在文档进入系统的方式面对这种问题很多团队的第一反应是换更贵的模型、改 prompt、调 temperature。但真正的问题可能发生在更早的地方正确证据根本没有被召回或者文档在进入系统时已经被切碎、丢失结构、断开来源。更准确地说RAG 出错至少要拆成三层来看如果检索层没有找到正确证据这是Recall 问题如果找到了证据但模型编造了文档里不存在的细节这是Faithfulness 问题如果答案有依据但没有完整回应用户意图这是Relevance 问题。在这个系统中文档解析层扮演着至关重要的角色。传统观念里像 Unstructured 或 LangChain Text Splitters 这类工具不应该只被简单解释成 parser 或者 RAG chunking 工具。如果只从 parser 或 chunking 的角度看它很容易被放进一个很窄的类别里把 PDF、Office、Markdown、图片变成文本块。一旦沿用这种平铺碎片的思路Recall 低就成了一个难以解决的系统性顽疾。Recall 低通常是系统性结构丢失不是单点问题在今天的 RAG 工程实践里一个越来越清楚的事实是效果不好时不能把问题粗暴归因于模型或向量数据库。Recall 低通常不是某一个模块单独失效更多的是文档如何被处理查询如何被表达检索如何被执行结果如何被评估这几件事叠加后的结果。其中最先影响召回上限的往往是文档进入系统时的处理方式。很多 RAG 管线仍然依赖固定长度 chunking把文档按 512 或 1024 tokens 切开。这种方式实现简单但很容易把完整答案拆到两个 chunk 里滑动窗口能缓解边界问题却会制造重复内容让相似 chunk 占据 top-k 结果按标题、段落、章节切分更符合人的阅读习惯但前提是文档结构可靠。现实中的 PDF、PPT、表格、扫描件、内部 Wiki 和工单记录往往并不规整所以 chunking 的问题本质上不是切多长的参数问题而是系统有没有理解文档结构的问题。真实文档并不是平铺文本。它有标题、章节、段落、表格、图片、脚注、引用、上下文关系也有从总览到细节的阅读路径。一旦把这些结构拍平成一堆 flat chunksAgent 拿到的就不再是一份文档而是一堆失去层级和来源的碎片。它可能知道某段文字和问题语义相似却不知道这段文字属于哪一章、上下文在讲什么、下文是否有限制条件、旁边的表格是否才是关键证据。很多 RAG 的问题正是从这一步开始埋下的。这就导致了检索不能只依赖单一信号。例如用户问 XR-2048 产品的功耗参数系统却召回 XR-1024 的说明。从通用语义上看两者都和“功耗参数”接近但从业务角度看型号错了答案就是错的。通用 embedding 擅长处理语义相似比如把“退款流程”和“退货申请”拉近。但面对产品型号、API 名称、错误码、合同编号、内部缩写这类精确词时它并不稳定。BM25 能补上词面匹配Reranker 可以在候选结果里重新判断相关性Query Rewriting 则可以把用户的口语表达改写成文档中的专业术语。它们各自解决的是检索链路中的不同盲区。但从 Harness Engineering 的角度看更关键的不是列举这些优化方法而是看到背后的共同事实一个可靠的 agent 系统需要的不只是一段相似文本更多的是一组可以组合使用的检索信号。语义、关键词、章节路径、文档层级、metadata、表格位置、图文关系、引用来源都会影响 agent 最终能不能找到正确证据。所以说 RAG 的 Recall 优化不是一个单点调参问题而是一套工程系统问题。它需要文档解析、结构化 chunking、多路检索、重排、查询改写、评估集、监控和反馈闭环一起工作。换句话说RAG 评估优化本身就是 Harness Engineering 的一部分模型之外的这些管道、工具、状态和反馈机制决定了 Agent 最终能不能拿到正确、完整、可引用的上下文。Knowhere: Agent 的结构化、可导航记忆层要解决上述所有结构丢失和单一信号的问题Harness 就需要一层新的基础设施。这正是我们最近在 GitHub 上开源的仓库 Knowhereontos-ai/knowhere应该被放进 Harness Engineering 里讨论的原因。如果说Agent Model Harness那么 Knowhere 对应的就是 Harness 里的document memory / search / context layer。它要解决的问题是大量企业内部非结构化和半结构化数据比如那些肮脏的被随意涂抹的 Excel 表格、排版混乱的 Word 文档如何顺畅地进入 agent 的长期记忆并在需要时被可靠地检索、导航和引用Knowhere 的价值入口不在大家经常聊的生成阶段、planner 阶段、review 阶段等等而是在更上游。一个好的复杂文档解析层在这个体系里的角色是成为其中的 document memory and retrieval substrate把复杂文档转成 agent 可导航、可引用、可检索、可持续使用的结构化记忆。这和模型怎么推理、agent 怎么规划任务、怎么通过 hook 来实现任务 review 同等关键。放到金融、法律场景的知识型 agent 里memory、search 和 context engineering 是 Harness 中非常关键的一层。模型本身不会天然知道新上传的文档也不会自动理解一份 PDF 的章节结构、表格关系、图片含义和引用来源。所有这些信息都必须通过外部记忆系统进入 agent 的工作流。但这里的关键不是“把文档全部塞给模型”。上下文窗口是有限的而且上下文越长模型越容易出现注意力稀释和推理质量下降。真正有效的 Harness不是把所有内容都塞进上下文而是决定哪些内容直接注入哪些内容留在外部记忆里按需检索哪些结果只需要摘要哪些回答必须带上原文证据和来源路径。因此RAG 的问题不能只看成“检索器有没有召回文本片段”。更准确地说它是在考验 Harness 有没有能力把外部知识组织成 agent 可用的形式。Knowhere 解决的就是这一层的问题为 Agent Harness 提供一层可持续使用的文档记忆和检索基础设施。它不是在做一次性的文档转文本也不是简单切除一批 chunks然后交给 vector db 检索它更重要的工作是在文档进入系统时尽可能保留结构和上下文把原始文档转成后续检索可以利用的多维信号。技术内核从 Flat Chunks 到 Tree-like Chunking但这还只是定位。真正关键的问题是Knowhere 如何把复杂文档从一堆 flat chunks变成 agent 可以导航、比较和引用的 memory substrate记忆基底既然平铺的碎片行不通文档进入 Agent 记忆的形态就应该回归它本身的立体样貌。Knowhere 通过它背后的 tree-like chunking 算法来做到这点。一篇复杂的文档进来Knowhere 的输出的 chunks 里不只是调整 chunk size也不只是给 chunk 多加几个 metadata 字段而是如上图所示把文档理解成一棵有层级、有路径、有关系的结构。第一层是文档内部的树。也就是说chunk 不再是一个被切下来的文本片段它变成了一个有位置、有父节点、有路径、有相邻关系、有来源信息的记忆节点。它知道自己属于哪个 sectionsection 属于哪个 chapter相关表格和图片在哪里上下文要不要一起读最终证据能不能回到原始文档。这样Agent 在 Harness 里调用检索工具时面对的就不是一堆孤立的 top-k 相似片段而是可以沿着章节、路径、关系和证据来源继续定位的文档记忆。最终我们会发现Agentic RAG 的核心不是 retrieval before generation而是retrieval as agent action它是 Harness 不可或缺的一部分。Knowhere 就是作为这一部分的关键服务出现的。

宝塔-完整搭建教程，项目部署方案大全

遵循步骤操作 📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！！！ 在搭建前需要服务器，请按操作步骤进行选购与搭建，可快手搭建起属于自己的服务器，没有的可以点此连接购买…

2026/5/28 6:25:52 阅读更多

27李永乐复习全书|660题真题PDF

27李永乐复习全书|660题真题PDF资料全科都有李永乐复习全书 660题真题https://pan.quark.cn/s/a5f150e22700 27 李永乐系资料清单资料形式阶段复习全书基础篇书 / PDF3—6 月复习全书强化篇书 / PDF7—9 月660 题（三册）题册 / PDF6—8 月历年真题&#…

2026/5/28 6:25:32 阅读更多

Java HashMap 与 ConcurrentHashMap 核心原理总结：从 Hash 冲突到 LongAdder

一、Hash 冲突是什么？Hash 表的核心思想是：通过 hash 算法，把一个 key 映射到数组中的某个位置。例如：int index hash(key) % table.length;但是不同的 key 经过 hash 计算之后，可能得到相同的数组下标。这种情况就叫…

2026/5/28 6:25:32 阅读更多

GMS1.4 YYC编译的EXE，除了反编译难，它的数据包还能这样玩？

GMS1.4 YYC编译EXE数据包的高级玩法：从资源提取到创意应用当开发者使用GameMaker Studio 1.4的YYC编译选项时，往往只注意到它对代码保护的强化，却忽略了其中数据包部分隐藏的可能性。这个被压缩到EXE文件中的资源库，实际上是一座未…

2026/5/28 7:16:09 阅读更多

告别平方律！用Gm/Id方法搞定65nm以下工艺的运放设计（附Virtuoso仿真图）

告别平方律！用Gm/Id方法搞定65nm以下工艺的运放设计（附Virtuoso仿真图）当工艺节点突破65nm门槛时，传统模拟电路设计师会突然发现，那些教科书里的平方律公式开始集体"罢工"。我至今记得第一次用28nm工艺设计运…

2026/5/28 7:15:08 阅读更多

告别CRUD，用Activiti 5.22命令模式与拦截器链打造高扩展流程引擎

告别CRUD：Activiti 5.22命令模式与拦截器链架构深度解析在传统企业级应用开发中，流程引擎往往被视为黑箱工具——开发者只需调用API完成流程部署和任务处理，却很少探究其内部运作机制。直到某次需要实现全操作审计时，我们才发现标…

2026/5/28 7:15:08 阅读更多

告别视频硬字幕提取的烦恼：本地化AI工具如何让你3分钟搞定字幕生成

告别视频硬字幕提取的烦恼：本地化AI工具如何让你3分钟搞定字幕生成【免费下载链接】video-subtitle-extractor 视频硬字幕提取，生成srt文件。无需申请第三方API，本地实现文本识别。基于深度学习的视频字幕提取框架，包含字幕区域检…

2026/5/28 7:11:06 阅读更多

后端开发新手入门：快速上手必备技能与工具

在当今数字化时代，后端开发作为构建稳定、高效、可扩展的Web应用的核心环节，正吸引着越来越多的开发者投身其中。对于后端开发新手而言，快速掌握必备技能与工具，不仅能加速学习曲线，还能为未来的职业发展打下坚实基础。…

2026/5/28 7:10:05 阅读更多

公司裁了三个人，剩下的活我一个人干了，没加班

【摘要】部门从4个人裁到1个人，工作量不变。没有加班、没有硬撑、没有鸡汤——靠的是一套把重复劳动交给AI的方法。附一张从列清单到走通流程的实操步骤。图：一个人如何完成一个部门的工作小陈是做…

2026/5/28 7:09:05 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章