Prompt 回归测试集:提示词升级后别只看新样本 Prompt 回归测试集提示词升级后别只看新样本一、提示词会引入回归Prompt 调优经常关注新问题这个边界回答错了就加一句规则那个格式不稳定就补一个示例。短期看效果变好但旧任务可能被破坏。比如修复了一个边界回答后原本正常的核心摘要突然多出无关段落排查发现是 Prompt 新增的示例覆盖了原有约束。提示词升级和代码升级一样都需要回归测试。只看新样本很容易把旧能力改坏。二、回归集要分层flowchart TD A[Prompt 回归集] -- B[核心任务] A -- C[边界样本] A -- D[格式样本] A -- E[安全样本] A -- F[历史失败]核心任务保证主要能力不退化边界样本覆盖易错场景格式样本检查输出协议安全样本避免越界历史失败样本防止问题复发。prompt_regression_suite: core_cases: 100 edge_cases: 50 schema_cases: 30 safety_cases: 30 past_failures: required回归集不是越大越好而是要覆盖真实风险。核心任务数量可以少但每个用例必须代表一个不可退化的能力边界样本要来自真实业务场景的易错问题不能靠人工编造。三、指标要看任务目标不同 Prompt 目标不同。摘要要看覆盖率和事实一致性分类要看准确率结构化输出要看解析成功率客服回答要看是否解决问题。metrics: parse_success_rate: required factual_consistency: required instruction_following: required safety_violation_rate: required不要用一个总分掩盖具体退化。格式成功率从 99% 降到 95%即使语义评分提高也可能不能上线。四、失败样本要进入循环每次回归发现失败都要标记原因检索不足、规则冲突、示例误导、模型随机性、任务定义不清。修复后失败样本应进入固定集合。failure_record: case_id: p-1024 reason: schema_drift fixed_by: prompt_v18 keep_in_regression: true还要控制样本污染。不要把评测答案直接塞进 Prompt 示例否则回归分数会虚高。最后Prompt 回归测试要进入发布流程。模板变更、模型切换、工具改版都应该触发回归。回归集还要控制版本。样本被修改、答案标准被更新、评分规则发生变化都要记录。否则同一个 Prompt 版本在不同时间跑出不同分数很难判断是模型变了还是评测集变了。eval_dataset_version: suite_id: prompt_regression_cn version: 2026_07_05 rubric_version: v3还要加入“无答案”样本。很多 Prompt 为了显得有帮助会在证据不足时强行回答。无答案样本可以检查模型是否会承认不知道尤其适合 RAG、客服和合规场景。回归报告不要只给平均分。要列出新增失败、修复失败、持续失败和波动样本。这样评审者能快速判断这次升级到底改善了什么、破坏了什么。最后回归测试要控制模型随机性。temperature、top_p、模型版本、系统指令都要固定否则一次通过不能说明稳定。但完全固定 temperature 也会让回归集失去对随机性鲁棒的验证能力。可以在固定配置之上额外跑一组随机性测试观察输出分布的波动范围。如果业务允许随机性就要重复采样。同一个样本跑 3 到 5 次观察格式失败率和答案波动。一次回答好不代表这个 Prompt 稳定。stability_check: runs_per_case: 5 max_schema_failure_rate: 0.01 track_answer_variance: true五、总结Prompt 回归测试集要覆盖核心任务、边界、格式、安全和历史失败并按任务目标拆分指标。提示词升级后别只看新样本。旧能力不退化才是真正变好。