RAG Prompt 调优：先固定检索结果，再比较提示词

发布时间：2026/7/3 1:52:57

RAG Prompt 调优先固定检索结果再比较提示词一、RAG 调优最怕变量混在一起RAG 系统效果不好时大家很容易同时改 embedding、chunk、TopK、rerank、Prompt 和生成模型。改完发现回答变好了却不知道是哪一项起作用。Prompt 调优尤其容易被误判因为检索结果一变模型回答自然也会变。要评估 RAG Prompt第一步应该固定检索结果。让不同 Prompt 使用同一批问题和同一批证据再比较答案质量。否则 Prompt A 看到了正确文档Prompt B 没看到结论就不公平。二、调优链路检索和生成分开评估flowchart TD A[问题集] -- B[固定检索结果] B -- C[Prompt A] B -- D[Prompt B] C -- E[答案 A] D -- F[答案 B] E -- G[评测对比] F -- G固定检索结果可以通过保存 TopK 文档 ID、片段文本和排序分数实现。每次 Prompt 实验都读取同一份证据。这样能更准确地比较提示词对引用、拒答、结构化输出和事实一致性的影响。如果要改检索策略就另开实验。检索实验看 RecallK、MRR 和证据覆盖Prompt 实验看答案忠实度、格式合法率和用户偏好。变量分开结论才干净。三、实验数据保存证据快照下面是一份证据快照结构。{ question_id: q_001, question: 如何重置 API Key, retrieved_docs: [ { doc_id: doc_12, chunk: 进入设置页点击 API Key 重置按钮..., score: 0.87 } ] }证据快照还能帮助复盘。某次回答错误时可以判断是证据本身不对还是 Prompt 没有正确使用证据。如果证据没有答案模型却编了答案那就是拒答规则不足如果证据有答案模型答错则是生成或格式问题。Prompt 中应明确要求引用证据不能使用证据外事实。对于无答案问题要要求模型说明“当前知识库没有足够信息”。RAG 的第一美德不是会说而是不乱说。四、评测指标忠实度比流畅度重要RAG 回答通常很容易写得流畅但流畅不代表可信。评测时应优先看事实忠实度、证据覆盖、引用正确率和拒答准确率。风格和语气可以后调事实边界不能让步。人工评估时可以让评审者同时看到问题、证据和答案判断答案是否完全来自证据。不要只看答案本身否则模型写得漂亮会影响判断。漂亮的错答案比朴素的拒答更危险。最后Prompt 调优要记录版本。一次小改动可能影响大量任务。固定检索结果、固定模型参数、固定评测样本才像实验不像祈愿。还要观察答案长度。某些 Prompt 会通过输出更长内容获得更高人工印象分但也带来 token 成本和用户阅读负担。RAG 回答不是越长越好能引用证据、覆盖关键点、少说无关内容才是真正的稳定。如果答案需要结构化输出评测里要单独统计 JSON 合法率或字段完整率。事实正确但格式解析失败在线上仍然是失败。工程系统看的是端到端成功不是模型自我感觉良好。Prompt 中还可以要求模型先判断证据是否足够再决定回答或拒答。这个步骤不一定要展示给用户但可以让输出更稳。对于证据不足的问题拒答模板要清楚说明缺少什么而不是简单说“无法回答”。好的拒答也是用户体验。五、总结RAG Prompt 调优要先固定检索结果再比较提示词效果。检索和生成变量分开才能定位问题。忠实度、引用正确率和拒答准确率比回答是否流畅更重要。

构建工具链深度定制：能不定制就别定制

构建工具链深度定制：能不定制就别定制一、定制工具链很爽，维护工具链很累前端团队发展到一定规模，都会想定制构建工具链：自动路由、按需加载、主题编译、权限注入、组件文档、Mock、产物分析。适度定制能提高效率，过…

2026/7/3 1:52:16 阅读更多

AI大模型实战学习

【B站精选】目前B站最细最全的AI大模型全套教程，2026最新版，包含所有干货！手把手带你从入门到精通！少走99%的弯路！存下吧！真的很难找全的！_哔哩哔哩_bilibili 资料：大模型官方课程-…

2026/7/3 1:52:16 阅读更多

Coze智能体开发平台：零代码构建AI工作流实战

1. 项目概述：Coze智能体开发平台初探最近在AI工具圈里频繁出现的"Coze"（国内称"扣子"），是字节跳动推出的一站式AI开发平台。这个平台最吸引人的地方在于，它让普通用户也能快速搭建属于自己的AI智能…

2026/7/3 1:52:16 阅读更多

DVWA从入门到精通（二）：Brute Force（暴力破解）

摘要：本文是《DVWA从入门到精通》系列的第二篇，带你全面掌握Brute Force（暴力破解）模块的攻防全流程。从暴力破解的核心原理出发，逐步讲解Low、Medium、High三个级别的攻击手法与源码分析，并深入探讨Imposs…

2026/7/3 2:58:03 阅读更多

2026年企业安全基建的误区、重构与最优解

近两年零信任（ZTA）彻底火遍政企、互联网、金融行业，几乎所有企业的安全基建方案，都会把零信任列为核心关键词。但我参与过十余家企业的零信任改造项目后，有个很直白的结论：市面上80%的零信任落地&#xff0…

2026/7/3 2:57:42 阅读更多

ROS 2 Python 核心 API 终极速查表

ROS 2 Python 核心 API 终极速查表① rclpy 顶层函数（系统级：负责启动、关闭、运行）rclpy.init(argsargs) # 【初始化】初始化 ROS 2 通信基础设施和上下文环境rclpy.create_node(node_name) # 【创建节点】快速创建一个基础的 ROS 2 节点…

2026/7/3 2:56:41 阅读更多

TDC7201与TDC7200芯片寄存器功能概述及main.c代码

TDC7201 全部寄存器完整功能手册前置说明 1. TDC7201 内部包含两路独立 TDC 内核（TDC1 / TDC2），两套寄存器完全独立，通过 CSB1 / CSB2 片选区分，下文统一前缀 TDCx_ 代表任意一路内核寄存器； 2. …

2026/7/3 2:56:41 阅读更多

避开Claude Code七大深坑，AI编程代理效率提升50%

🚀 30款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度最近在团队里推广 Claude Code，发现不少同事上手后很快遇到瓶颈——要么觉得“这 AI 助手也就那样”，要么抱…

2026/7/3 2:56:41 阅读更多

Orca ADE：多智能体并行编程，突破AI开发效率瓶颈

🚀 30款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度如果你还在用同一个 AI 编程助手，在同一个 IDE 里，手动切换模型去解决同一个问题，那你可能已经落…

2026/7/3 2:56:41 阅读更多

GPT-5与Veo3双引擎AI开发实战与避坑指南

1. 项目概述：下一代AI开发范式革新2026年的全栈开发正在经历一场静默革命。当GPT-5.2-Pro遇上Veo3，开发者终于可以摆脱繁琐的API对接噩梦。上周我用这个方案重构了公司的智能客服系统，原本需要3天完成的跨平台对接，现在只需在终端…

2026/7/3 0:00:48 阅读更多

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧【免费下载链接】AutoRaise AutoRaise (and focus) a window when hovering over it with the mouse 项目地址: https://gitcode.com/gh_mirrors/au/AutoRaise AutoRaise是一款革命性的macOS窗口管…

2026/7/3 0:00:48 阅读更多

STM32G071RB与WSEN-ISDS IMU运动跟踪开发指南

1. 项目背景与硬件选型解析在嵌入式系统开发中，精确跟踪物体在三维空间中的运动和姿态是一个常见但极具挑战性的需求。WSEN-ISDS（型号2536030320001）是Wrth Elektronik推出的一款高性能6轴MEMS惯性测量单元(IMU)，结合STM32G071RB微…

2026/7/3 0:01:09 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/3 0:18:29 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/3 2:01:12 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/3 2:01:03 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/3 0:03:16 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/3 0:18:23 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/3 0:18:26 阅读更多

相关文章

构建工具链深度定制：能不定制就别定制

AI大模型实战学习

Coze智能体开发平台：零代码构建AI工作流实战

DVWA从入门到精通（二）：Brute Force（暴力破解）

2026年企业安全基建的误区、重构与最优解

ROS 2 Python 核心 API 终极速查表

TDC7201与TDC7200芯片寄存器功能概述及main.c代码

避开Claude Code七大深坑，AI编程代理效率提升50%

Orca ADE：多智能体并行编程，突破AI开发效率瓶颈

GPT-5与Veo3双引擎AI开发实战与避坑指南

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

STM32G071RB与WSEN-ISDS IMU运动跟踪开发指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南