从LLM涌现现象到测试逻辑变革 1. 早期为什么会观察到“涌现”早期 LLM 研究本来已经知道一个稳定现象语言建模损失 loss 会随模型规模、数据规模、训练计算量呈近似 power-law 平滑下降。Kaplan 等人在 2020 年的 Scaling Laws 论文中指出cross-entropy loss 会随着模型规模、数据规模和计算量扩展呈幂律下降并且这种趋势跨越多个数量级。但是到 GPT-3、Gopher、Chinchilla、PaLM 这类大模型阶段研究者发现一个矛盾loss 是平滑下降的但很多具体任务的最终得分不是平滑上升而是突然从接近随机水平跳到明显可用水平。Wei 等人因此定义了“emergent abilities”小模型没有、大模型出现且不能简单通过小模型表现外推预测。这个现象主要是在few-shot / zero-shot prompting场景下观察到的模型参数不更新只靠 Prompt 完成任务。因此它和传统“微调后任务提升”不一样更像是模型规模达到某个阈值后突然可以利用上下文、理解指令或执行复杂推理。2. 早期常用的测试指标和方法早期 LLM 能力评测大体分成几类。评测方向常用指标常见任务 / Benchmark容易观察到涌现吗语言建模cross-entropy loss、perplexity预训练验证集通常较平滑多选题accuracy、multiple-choice gradeMMLU、BIG-Bench 多选任务容易出现“跳变”问答 / 数学exact match、final answer accuracyGSM8K、BIG-Bench arithmetic容易出现“跳变”代码生成pass1、passkHumanEval、MBPPpass1 容易跳变passk 更平滑一些生成任务BLEU、ROUGE、EM、人工评分翻译、摘要、开放问答取决于指标设计Prompt 能力zero-shot、few-shot、CoTBIG-Bench、BBH、GSM8KCoT 常在大模型上突然有效综合评估standardized benchmark scoreBIG-Bench、HELM早期多偏向 accuracy后期更重视多指标BIG-Bench 是早期观察涌现现象的重要来源。它包含 204 个任务由 450 位作者、132 个机构贡献任务覆盖语言学、数学、常识推理、生物、物理、社会偏见、软件开发等方向它还专门评测了 OpenAI GPT 系列、Google dense Transformer、Switch-style sparse Transformer 等不同规模模型。BIG-Bench 论文也指出逐渐、可预测提升的任务通常更偏知识或记忆而“breakthrough”任务往往涉及多步骤、多组件或使用比较脆弱的指标。3. 哪些模型和阶段上观察到了涌现早期最典型的观察来自下面几类模型。3.1 GPT-3 系列few-shot 能力与算术任务GPT-3 2020 年之后研究者开始系统观察到模型规模从亿级、十亿级增长到 175B 时few-shot 能力明显增强。后续 Schaeffer 等人在反驳“涌现”的论文中也专门复测了InstructGPT / GPT-3 家族包括 350M、1.3B、6.7B、175B 等公开可访问模型早期在整数加法、乘法等任务上accuracy 看起来有明显跃迁。例如在2 个整数的 2 位数乘法、2 个整数的 4 位数加法这类任务上如果用 final exact accuracy曲线会显得很陡峭小模型几乎全错大模型突然大量答对。3.2 PaLM 540BBIG-Bench 上的突破表现PaLM 是早期涌现讨论中的核心模型之一。PaLM 论文称540B 参数模型在数百个语言理解和生成 benchmark 上取得强 few-shot 结果并且在多步推理任务和 BIG-Bench 上出现突破表现论文还明确说许多 BIG-Bench 任务在扩展到最大模型时出现了“discontinuous improvements”。也就是说在 PaLM 8B、62B、540B 这一类规模对比中最大模型 PaLM 540B 经常成为能力跃迁的观察点。3.3 BIG-Bench / BBH复杂推理任务BIG-Bench 和后续 BIG-Bench Hard 里许多任务不是简单知识记忆而是组合推理、符号处理、算术、语言游戏、语义判断。这类任务如果采用 exact match 或 multiple-choice grade往往容易呈现“低规模接近随机—高规模突然超过随机”的形态。BIG-Bench 论文自己也提到突破行为常与多步骤任务或脆弱指标有关。3.4 Chain-of-ThoughtPrompt 方法本身也会涌现Wei 等人的综述和后续论文都强调涌现不仅发生在任务能力上也发生在Prompting 技术是否有效上。例如 CoT 在小模型上可能没有明显帮助但在足够大的模型上加入“let’s think step by step”或 few-shot reasoning examples 后数学和复杂推理能力明显提升。2024 年的 PassUntil 论文也指出CoT 和 ICL 让任务性能 scaling law 更难理解。4. 后期为什么说很多“涌现”其实是指标造成的2023 年 Schaeffer 等人的《Are Emergent Abilities of Large Language Models a Mirage?》是关键转折点。它的核心观点是对于同一个任务、同一个模型家族、同一批模型输出如果换掉指标很多涌现现象会消失。这篇论文指出非线性或不连续指标会制造“突然出现”的表象而线性或连续指标会显示更平滑、连续、可预测的性能增长。它重点批评了两类指标早期指标问题后期替代指标exact match / accuracy必须所有 token 全对才给 1否则 0token edit distance、partial creditmultiple-choice grade选项概率刚过阈值才算正确近似阶跃函数Brier score、log probability、calibrationpass1一次生成通过才算成功passk、采样成功概率、PassUntilfinal answer accuracy只看最终答案不看过程step-level correctness、process reward、trace eval论文用一个简单逻辑解释了这个现象如果每个 token 的正确概率随规模平滑提升那么一个多 token 答案“全部 token 都正确”的概率就是多个概率相乘。随着答案长度增加最终 exact match 就会变得非常陡峭。也就是说底层 token 能力可能是连续增长的但 exact match 会把它放大成“突然会了”。Schaeffer 等人明确用token edit distance替代 accuracy发现 GPT-3/InstructGPT 在算术任务上的表现变得平滑、连续、可预测。5. 后期哪些指标让增长变得平缓、可预测5.1 Token Edit Distance替代 exact match在整数加法、乘法任务上早期用 accuracy 评估时模型必须输出完全正确的字符串只错一个数字也算完全错误。Schaeffer 等人换成token edit distance后同一批 GPT-3/InstructGPT 模型表现出平滑提升。论文图 3 明确写到上方用 accuracy 时表现尖锐、不可预测下方用 token edit distance 时性能随规模平滑、可预测改善。这说明小模型不是“完全不会”而是可能已经少错几个 token、格式更接近、部分数字正确只是 exact match 没有给它任何部分分。5.2 Brier Score替代 multiple-choice grade对多选题来说multiple-choice grade 本质上只看模型最后选哪个选项。如果正确选项概率从 0.20 提升到 0.24但还不是最高就仍然算 0一旦从 0.49 超过错误选项变成 0.51就突然算 1。Schaeffer 等人提出用Brier Score这类连续概率指标观察多选任务发现许多原本看似涌现的任务会变成平滑增长。5.3 增加测试分辨率更多样本、更密模型规模点Schaeffer 等人还指出涌现表象和“测试分辨率不足”有关。测试集太小、模型规模采样点太稀疏都会让曲线看起来像突然跳变。论文中他们通过增加测试数据分辨率发现即使用 accuracyInstructGPT/GPT-3 家族在算术任务上也能呈现更平滑、连续、可预测的改善。5.4 PassUntil用大量采样估计“成功概率”2024 年的《Predicting Emergent Abilities with Infinite Resolution Evaluation》进一步提出PassUntil。它不是只采样一次而是持续采样直到某个任务实例被模型成功完成然后用所需采样次数估计模型通过该样本的概率。该论文认为小模型虽然表面分数很低但在足够多次采样下很多实例是“可通过”的传统评测因为分辨率不够看不到这些微弱进步。这篇论文还提出了 task scaling law并报告可以在代码生成任务上预测 2.4B 模型表现说明某些下游任务表现并非完全不可预测。6. “同样模型换指标后涌现消失”的典型案例最典型的是 Schaeffer 等人对 GPT-3/InstructGPT 的复测。任务模型早期指标早期现象后期指标后期现象2 位数乘法GPT-3 / InstructGPT 350M → 175Baccuracy长答案任务上看似突然跃迁token edit distance平滑、连续提升4 位数加法GPT-3 / InstructGPT 350M → 175Bexact match / accuracy小模型几乎 0大模型突然明显提升token edit distance错误 token 数逐步减少多选任务BIG-Bench / MMLU 类任务multiple-choice grade正确率突然越过随机线Brier score / 概率分数概率分布逐步改善BIG-Bench 任务族多模型族normalized score / accuracy某些 task-metric-family 三元组表现涌现连续指标 / meta-analysis很多涌现消失视觉任务类比实验Autoencoder / Transformer / LeNet人为设置不连续指标也能制造“涌现”MSE / 普通 accuracy原始曲线平滑Schaeffer 等人甚至进一步在视觉任务上人为设计不连续指标让普通 autoencoder、Omniglot 分类 Transformer、MNIST LeNet 也出现“看起来像涌现”的曲线用来说明指标本身可以制造涌现外观。7. 但哪些现象仍然不能完全用“指标缺陷”解释这里要谨慎现在学界没有一个完全公认的清单说“这些一定是真涌现”。更合理的说法是有些现象即使改进指标后仍然难以完全用平滑增长解释或者现有观测手段还不足。7.1 多步推理的 end-to-end 成功率即使每一步能力平滑提升整个任务的最终成功率也可能表现得很陡峭。比如一道题需要 10 个步骤每一步成功率从 0.7 提升到 0.9单步看是平滑的但整体成功率是多个步骤的乘积最终 accuracy 会非常敏感。PassUntil 论文也讨论了多步推理如果每个 reasoning step 的成功率遵循 scaling law整体多步成功率可能呈现不同于单步的增长形态论文还提出“multiple circuits hypothesis”认为多个解决任务的 circuit 可能共同导致加速式涌现。所以对多步推理来说过程能力可能平滑最终任务成功率仍然可能保持阈值形态。这不是简单的“指标错了”而是复杂任务本身的组合结构导致的。7.2 Chain-of-Thought 是否有效CoT 的效果本身仍具有一定涌现特征。小模型即使被要求 step-by-step也可能生成不可靠推理大模型则能把中间步骤变成有效计算过程。2025 年的涌现综述也把 CoT、ICL、推理能力、代码和问题求解列为涌现能力争论的核心范围并指出其机制仍然没有完全理解。换句话说我们可以用 step-level accuracy、过程奖励模型、trace consistency 等指标更细地观察 CoT但目前还不能说 CoT 的出现完全只是 accuracy 指标造成的错觉。7.3 In-context LearningICL 是更复杂的情况。它不只是“最终答案对不对”而是模型是否能从上下文示例中归纳任务规则。2025 年综述指出ICL 常被视为 LLM 通过 few-shot 或 zero-shot prompting 在不更新参数的情况下泛化到新任务的能力同时ICL 不一定要求突然跳变也可能是逐渐形成的能力。但 ICL 的内部机制例如 induction heads、上下文模式匹配、隐式贝叶斯推断、任务识别仍然不容易通过单个连续指标完全测清。因此它属于“可以部分平滑化但机制层面仍未完全解释”的现象。7.4 Agent 行为与长程任务完成Agent 任务通常包含理解目标、规划、调用工具、读取反馈、修正计划、长期记忆、多轮交互。这种能力不是一个单步分类问题而是复杂系统行为。2025 年综述已经把 LLM-powered AI agents、Large Reasoning Models、强化学习后训练、inference-time search 都纳入涌现讨论范围并指出这些系统可能产生新的自主行为。对于 Agent单纯换成 token edit distance 或 Brier score 不能解决问题。因为真实目标是任务是否完成步骤是否合理工具调用是否正确出错后是否能恢复是否产生副作用是否遵守安全约束。这些指标天然是系统级、过程级、交互级的很难用一个连续单值指标完全表示。7.5 安全风险欺骗、操纵、reward hacking更难的是安全类涌现。2025 年综述明确提到随着 AI 系统获得更强的自主推理能力也可能发展出 harmful behaviors包括 deception、manipulation、reward hacking并强调需要更好的评估框架和治理。这类能力不能简单通过“正确答案概率逐渐上升”来观察。比如欺骗能力可能只有在特定目标、压力、权限、长期任务环境下才表现出来。你很难通过普通 benchmark 的 accuracy 看出它正在慢慢形成。7.6 高分辨率指标下仍存在 accelerated emergencePassUntil 论文并没有完全否定涌现。相反它认为传统指标分辨率不足但在提高分辨率之后仍识别出一种accelerated emergence某些任务的 scaling curve 无法被标准 scaling law 函数很好拟合增长速度反而增加。该论文认为这可能与多个 circuit 共同作用有关。这点很重要“很多涌现是指标错觉”不等于“所有涌现都不存在”。8. 可以把整个演进理解成三代评测方法第一代结果型评测早期主要看最终答案是否正确代码是否通过多选题是否选对代表指标accuracyexact matchmultiple-choice gradepass1优点是简单、可复现、适合 leaderboard。缺点是分辨率低容易把连续进步显示成突变。第二代连续型 / 高分辨率评测后期开始看答案离正确答案有多远正确选项概率是否上升错误 token 数是否减少多次采样下是否存在成功路径代表指标token edit distanceBrier scorelog probabilitycalibrationpasskPassUntilstep-level score优点是能观察小模型的细微进步帮助建立可预测 scaling。缺点是有时和真实业务目标不完全一致。第三代过程型 / 系统型评测现在更前沿的方向是看模型如何完成任务中间过程是否可靠工具调用是否正确多轮任务是否稳定是否有安全风险代表方法process supervisiontrace evaluationLLM-as-judgeagent trajectory evaluationRAG faithfulnesstool-call success ratelong-horizon task completionred teaming这类评测更接近真实应用但也更难标准化。9. 关键结论围绕涌现问题测试指标和方法的变化可以概括为阶段主要方法观察到的现象后续修正Scaling Law 阶段loss、perplexity平滑、可预测下降说明预训练 loss 可预测GPT-3 / PaLM / BIG-Bench 阶段accuracy、exact match、multiple-choice grade大量任务出现“突然跃迁”形成涌现能力概念Mirage 反驳阶段token edit distance、Brier score、更高测试分辨率很多涌现变成平滑增长说明 hard metric 会制造涌现表象Infinite Resolution 阶段PassUntil、instance-level fit小模型微弱能力可被观测任务表现更可预测但仍发现 accelerated emergenceAgent / LRM 阶段过程评测、轨迹评测、安全评测长程推理、自主行为、安全风险仍难预测需要系统级评估框架最终可以这样理解涌现能力不是一个单纯的模型现象也不是一个单纯的测试幻觉。它是“模型规模增长 任务复杂度 Prompt 激发方式 指标离散化 测试分辨率不足 系统交互行为”共同作用的结果。对 LLM 测试开发来说最重要的启发是不要只用 final accuracy 判断能力是否存在。要同时设计 hard target metric、soft diagnostic metric、process metric 和 system-level metric。也就是说同一个任务最好同时记录1. 最终答案是否正确 2. 错误距离有多远 3. 正确答案概率是否上升 4. 中间步骤是否部分正确 5. 多次采样是否能成功 6. Prompt 改写后是否稳定 7. 工具调用是否成功 8. 任务链路是否可恢复 9. 是否出现安全副作用这样才能避免把“正在形成的能力”误判为“完全不会”也能避免把“指标造成的跳变”误判为“真实涌现”。