从LLM涌现现象到测试逻辑变革

发布时间：2026/6/12 2:54:31

1. 早期为什么会观察到“涌现”早期 LLM 研究本来已经知道一个稳定现象语言建模损失 loss 会随模型规模、数据规模、训练计算量呈近似 power-law 平滑下降。Kaplan 等人在 2020 年的 Scaling Laws 论文中指出cross-entropy loss 会随着模型规模、数据规模和计算量扩展呈幂律下降并且这种趋势跨越多个数量级。但是到 GPT-3、Gopher、Chinchilla、PaLM 这类大模型阶段研究者发现一个矛盾loss 是平滑下降的但很多具体任务的最终得分不是平滑上升而是突然从接近随机水平跳到明显可用水平。Wei 等人因此定义了“emergent abilities”小模型没有、大模型出现且不能简单通过小模型表现外推预测。这个现象主要是在few-shot / zero-shot prompting场景下观察到的模型参数不更新只靠 Prompt 完成任务。因此它和传统“微调后任务提升”不一样更像是模型规模达到某个阈值后突然可以利用上下文、理解指令或执行复杂推理。2. 早期常用的测试指标和方法早期 LLM 能力评测大体分成几类。评测方向常用指标常见任务 / Benchmark容易观察到涌现吗语言建模cross-entropy loss、perplexity预训练验证集通常较平滑多选题accuracy、multiple-choice gradeMMLU、BIG-Bench 多选任务容易出现“跳变”问答 / 数学exact match、final answer accuracyGSM8K、BIG-Bench arithmetic容易出现“跳变”代码生成pass1、passkHumanEval、MBPPpass1 容易跳变passk 更平滑一些生成任务BLEU、ROUGE、EM、人工评分翻译、摘要、开放问答取决于指标设计Prompt 能力zero-shot、few-shot、CoTBIG-Bench、BBH、GSM8KCoT 常在大模型上突然有效综合评估standardized benchmark scoreBIG-Bench、HELM早期多偏向 accuracy后期更重视多指标BIG-Bench 是早期观察涌现现象的重要来源。它包含 204 个任务由 450 位作者、132 个机构贡献任务覆盖语言学、数学、常识推理、生物、物理、社会偏见、软件开发等方向它还专门评测了 OpenAI GPT 系列、Google dense Transformer、Switch-style sparse Transformer 等不同规模模型。BIG-Bench 论文也指出逐渐、可预测提升的任务通常更偏知识或记忆而“breakthrough”任务往往涉及多步骤、多组件或使用比较脆弱的指标。3. 哪些模型和阶段上观察到了涌现早期最典型的观察来自下面几类模型。3.1 GPT-3 系列few-shot 能力与算术任务GPT-3 2020 年之后研究者开始系统观察到模型规模从亿级、十亿级增长到 175B 时few-shot 能力明显增强。后续 Schaeffer 等人在反驳“涌现”的论文中也专门复测了InstructGPT / GPT-3 家族包括 350M、1.3B、6.7B、175B 等公开可访问模型早期在整数加法、乘法等任务上accuracy 看起来有明显跃迁。例如在2 个整数的 2 位数乘法、2 个整数的 4 位数加法这类任务上如果用 final exact accuracy曲线会显得很陡峭小模型几乎全错大模型突然大量答对。3.2 PaLM 540BBIG-Bench 上的突破表现PaLM 是早期涌现讨论中的核心模型之一。PaLM 论文称540B 参数模型在数百个语言理解和生成 benchmark 上取得强 few-shot 结果并且在多步推理任务和 BIG-Bench 上出现突破表现论文还明确说许多 BIG-Bench 任务在扩展到最大模型时出现了“discontinuous improvements”。也就是说在 PaLM 8B、62B、540B 这一类规模对比中最大模型 PaLM 540B 经常成为能力跃迁的观察点。3.3 BIG-Bench / BBH复杂推理任务BIG-Bench 和后续 BIG-Bench Hard 里许多任务不是简单知识记忆而是组合推理、符号处理、算术、语言游戏、语义判断。这类任务如果采用 exact match 或 multiple-choice grade往往容易呈现“低规模接近随机—高规模突然超过随机”的形态。BIG-Bench 论文自己也提到突破行为常与多步骤任务或脆弱指标有关。3.4 Chain-of-ThoughtPrompt 方法本身也会涌现Wei 等人的综述和后续论文都强调涌现不仅发生在任务能力上也发生在Prompting 技术是否有效上。例如 CoT 在小模型上可能没有明显帮助但在足够大的模型上加入“let’s think step by step”或 few-shot reasoning examples 后数学和复杂推理能力明显提升。2024 年的 PassUntil 论文也指出CoT 和 ICL 让任务性能 scaling law 更难理解。4. 后期为什么说很多“涌现”其实是指标造成的2023 年 Schaeffer 等人的《Are Emergent Abilities of Large Language Models a Mirage?》是关键转折点。它的核心观点是对于同一个任务、同一个模型家族、同一批模型输出如果换掉指标很多涌现现象会消失。这篇论文指出非线性或不连续指标会制造“突然出现”的表象而线性或连续指标会显示更平滑、连续、可预测的性能增长。它重点批评了两类指标早期指标问题后期替代指标exact match / accuracy必须所有 token 全对才给 1否则 0token edit distance、partial creditmultiple-choice grade选项概率刚过阈值才算正确近似阶跃函数Brier score、log probability、calibrationpass1一次生成通过才算成功passk、采样成功概率、PassUntilfinal answer accuracy只看最终答案不看过程step-level correctness、process reward、trace eval论文用一个简单逻辑解释了这个现象如果每个 token 的正确概率随规模平滑提升那么一个多 token 答案“全部 token 都正确”的概率就是多个概率相乘。随着答案长度增加最终 exact match 就会变得非常陡峭。也就是说底层 token 能力可能是连续增长的但 exact match 会把它放大成“突然会了”。Schaeffer 等人明确用token edit distance替代 accuracy发现 GPT-3/InstructGPT 在算术任务上的表现变得平滑、连续、可预测。5. 后期哪些指标让增长变得平缓、可预测5.1 Token Edit Distance替代 exact match在整数加法、乘法任务上早期用 accuracy 评估时模型必须输出完全正确的字符串只错一个数字也算完全错误。Schaeffer 等人换成token edit distance后同一批 GPT-3/InstructGPT 模型表现出平滑提升。论文图 3 明确写到上方用 accuracy 时表现尖锐、不可预测下方用 token edit distance 时性能随规模平滑、可预测改善。这说明小模型不是“完全不会”而是可能已经少错几个 token、格式更接近、部分数字正确只是 exact match 没有给它任何部分分。5.2 Brier Score替代 multiple-choice grade对多选题来说multiple-choice grade 本质上只看模型最后选哪个选项。如果正确选项概率从 0.20 提升到 0.24但还不是最高就仍然算 0一旦从 0.49 超过错误选项变成 0.51就突然算 1。Schaeffer 等人提出用Brier Score这类连续概率指标观察多选任务发现许多原本看似涌现的任务会变成平滑增长。5.3 增加测试分辨率更多样本、更密模型规模点Schaeffer 等人还指出涌现表象和“测试分辨率不足”有关。测试集太小、模型规模采样点太稀疏都会让曲线看起来像突然跳变。论文中他们通过增加测试数据分辨率发现即使用 accuracyInstructGPT/GPT-3 家族在算术任务上也能呈现更平滑、连续、可预测的改善。5.4 PassUntil用大量采样估计“成功概率”2024 年的《Predicting Emergent Abilities with Infinite Resolution Evaluation》进一步提出PassUntil。它不是只采样一次而是持续采样直到某个任务实例被模型成功完成然后用所需采样次数估计模型通过该样本的概率。该论文认为小模型虽然表面分数很低但在足够多次采样下很多实例是“可通过”的传统评测因为分辨率不够看不到这些微弱进步。这篇论文还提出了 task scaling law并报告可以在代码生成任务上预测 2.4B 模型表现说明某些下游任务表现并非完全不可预测。6. “同样模型换指标后涌现消失”的典型案例最典型的是 Schaeffer 等人对 GPT-3/InstructGPT 的复测。任务模型早期指标早期现象后期指标后期现象2 位数乘法GPT-3 / InstructGPT 350M → 175Baccuracy长答案任务上看似突然跃迁token edit distance平滑、连续提升4 位数加法GPT-3 / InstructGPT 350M → 175Bexact match / accuracy小模型几乎 0大模型突然明显提升token edit distance错误 token 数逐步减少多选任务BIG-Bench / MMLU 类任务multiple-choice grade正确率突然越过随机线Brier score / 概率分数概率分布逐步改善BIG-Bench 任务族多模型族normalized score / accuracy某些 task-metric-family 三元组表现涌现连续指标 / meta-analysis很多涌现消失视觉任务类比实验Autoencoder / Transformer / LeNet人为设置不连续指标也能制造“涌现”MSE / 普通 accuracy原始曲线平滑Schaeffer 等人甚至进一步在视觉任务上人为设计不连续指标让普通 autoencoder、Omniglot 分类 Transformer、MNIST LeNet 也出现“看起来像涌现”的曲线用来说明指标本身可以制造涌现外观。7. 但哪些现象仍然不能完全用“指标缺陷”解释这里要谨慎现在学界没有一个完全公认的清单说“这些一定是真涌现”。更合理的说法是有些现象即使改进指标后仍然难以完全用平滑增长解释或者现有观测手段还不足。7.1 多步推理的 end-to-end 成功率即使每一步能力平滑提升整个任务的最终成功率也可能表现得很陡峭。比如一道题需要 10 个步骤每一步成功率从 0.7 提升到 0.9单步看是平滑的但整体成功率是多个步骤的乘积最终 accuracy 会非常敏感。PassUntil 论文也讨论了多步推理如果每个 reasoning step 的成功率遵循 scaling law整体多步成功率可能呈现不同于单步的增长形态论文还提出“multiple circuits hypothesis”认为多个解决任务的 circuit 可能共同导致加速式涌现。所以对多步推理来说过程能力可能平滑最终任务成功率仍然可能保持阈值形态。这不是简单的“指标错了”而是复杂任务本身的组合结构导致的。7.2 Chain-of-Thought 是否有效CoT 的效果本身仍具有一定涌现特征。小模型即使被要求 step-by-step也可能生成不可靠推理大模型则能把中间步骤变成有效计算过程。2025 年的涌现综述也把 CoT、ICL、推理能力、代码和问题求解列为涌现能力争论的核心范围并指出其机制仍然没有完全理解。换句话说我们可以用 step-level accuracy、过程奖励模型、trace consistency 等指标更细地观察 CoT但目前还不能说 CoT 的出现完全只是 accuracy 指标造成的错觉。7.3 In-context LearningICL 是更复杂的情况。它不只是“最终答案对不对”而是模型是否能从上下文示例中归纳任务规则。2025 年综述指出ICL 常被视为 LLM 通过 few-shot 或 zero-shot prompting 在不更新参数的情况下泛化到新任务的能力同时ICL 不一定要求突然跳变也可能是逐渐形成的能力。但 ICL 的内部机制例如 induction heads、上下文模式匹配、隐式贝叶斯推断、任务识别仍然不容易通过单个连续指标完全测清。因此它属于“可以部分平滑化但机制层面仍未完全解释”的现象。7.4 Agent 行为与长程任务完成Agent 任务通常包含理解目标、规划、调用工具、读取反馈、修正计划、长期记忆、多轮交互。这种能力不是一个单步分类问题而是复杂系统行为。2025 年综述已经把 LLM-powered AI agents、Large Reasoning Models、强化学习后训练、inference-time search 都纳入涌现讨论范围并指出这些系统可能产生新的自主行为。对于 Agent单纯换成 token edit distance 或 Brier score 不能解决问题。因为真实目标是任务是否完成步骤是否合理工具调用是否正确出错后是否能恢复是否产生副作用是否遵守安全约束。这些指标天然是系统级、过程级、交互级的很难用一个连续单值指标完全表示。7.5 安全风险欺骗、操纵、reward hacking更难的是安全类涌现。2025 年综述明确提到随着 AI 系统获得更强的自主推理能力也可能发展出 harmful behaviors包括 deception、manipulation、reward hacking并强调需要更好的评估框架和治理。这类能力不能简单通过“正确答案概率逐渐上升”来观察。比如欺骗能力可能只有在特定目标、压力、权限、长期任务环境下才表现出来。你很难通过普通 benchmark 的 accuracy 看出它正在慢慢形成。7.6 高分辨率指标下仍存在 accelerated emergencePassUntil 论文并没有完全否定涌现。相反它认为传统指标分辨率不足但在提高分辨率之后仍识别出一种accelerated emergence某些任务的 scaling curve 无法被标准 scaling law 函数很好拟合增长速度反而增加。该论文认为这可能与多个 circuit 共同作用有关。这点很重要“很多涌现是指标错觉”不等于“所有涌现都不存在”。8. 可以把整个演进理解成三代评测方法第一代结果型评测早期主要看最终答案是否正确代码是否通过多选题是否选对代表指标accuracyexact matchmultiple-choice gradepass1优点是简单、可复现、适合 leaderboard。缺点是分辨率低容易把连续进步显示成突变。第二代连续型 / 高分辨率评测后期开始看答案离正确答案有多远正确选项概率是否上升错误 token 数是否减少多次采样下是否存在成功路径代表指标token edit distanceBrier scorelog probabilitycalibrationpasskPassUntilstep-level score优点是能观察小模型的细微进步帮助建立可预测 scaling。缺点是有时和真实业务目标不完全一致。第三代过程型 / 系统型评测现在更前沿的方向是看模型如何完成任务中间过程是否可靠工具调用是否正确多轮任务是否稳定是否有安全风险代表方法process supervisiontrace evaluationLLM-as-judgeagent trajectory evaluationRAG faithfulnesstool-call success ratelong-horizon task completionred teaming这类评测更接近真实应用但也更难标准化。9. 关键结论围绕涌现问题测试指标和方法的变化可以概括为阶段主要方法观察到的现象后续修正Scaling Law 阶段loss、perplexity平滑、可预测下降说明预训练 loss 可预测GPT-3 / PaLM / BIG-Bench 阶段accuracy、exact match、multiple-choice grade大量任务出现“突然跃迁”形成涌现能力概念Mirage 反驳阶段token edit distance、Brier score、更高测试分辨率很多涌现变成平滑增长说明 hard metric 会制造涌现表象Infinite Resolution 阶段PassUntil、instance-level fit小模型微弱能力可被观测任务表现更可预测但仍发现 accelerated emergenceAgent / LRM 阶段过程评测、轨迹评测、安全评测长程推理、自主行为、安全风险仍难预测需要系统级评估框架最终可以这样理解涌现能力不是一个单纯的模型现象也不是一个单纯的测试幻觉。它是“模型规模增长任务复杂度 Prompt 激发方式指标离散化测试分辨率不足系统交互行为”共同作用的结果。对 LLM 测试开发来说最重要的启发是不要只用 final accuracy 判断能力是否存在。要同时设计 hard target metric、soft diagnostic metric、process metric 和 system-level metric。也就是说同一个任务最好同时记录1. 最终答案是否正确 2. 错误距离有多远 3. 正确答案概率是否上升 4. 中间步骤是否部分正确 5. 多次采样是否能成功 6. Prompt 改写后是否稳定 7. 工具调用是否成功 8. 任务链路是否可恢复 9. 是否出现安全副作用这样才能避免把“正在形成的能力”误判为“完全不会”也能避免把“指标造成的跳变”误判为“真实涌现”。

告别‘睁眼瞎’：手把手教你用TI毫米波雷达的MIMO模式提升角度分辨率

毫米波雷达MIMO模式实战：从原理到代码实现的角度分辨率优化指南在自动驾驶和工业检测领域，毫米波雷达因其全天候工作能力和精确的距离速度测量而备受青睐。但许多工程师在实际部署时会遇到一个棘手问题——当两个目标物体距离相近时，雷达输出…

2026/6/12 2:53:10 阅读更多

Arduino项目省线秘籍：一根I2C总线如何同时驱动多个传感器和另一块Arduino？

Arduino高效布线实战：I2C总线多设备管理与稳定性优化在物联网节点开发中，线缆管理往往成为最容易被忽视的痛点。当BME280温湿度传感器、OLED显示屏和从属Arduino Nano挤满面包板时，那些彩色杜邦线就像一团纠缠的耳机线——不仅影响美观&#…

2026/6/12 2:53:10 阅读更多

别再硬编码了！用Python Hook机制5分钟搞定一个可插拔的插件系统

用Python Hook机制构建高扩展性插件系统的5个实战技巧在开发需要长期维护的中大型Python项目时，如何设计一个灵活可扩展的架构一直是开发者面临的挑战。传统硬编码的功能模块不仅难以维护，更会成为项目迭代的绊脚石。本文将揭示如何利用Python的Hook机制…

2026/6/12 2:52:29 阅读更多

别再死记硬背PID公式了！用无人机悬停的实战例子，5分钟搞懂P、I、D到底在干啥

别再死记硬背PID公式了！用无人机悬停的实战例子，5分钟搞懂P、I、D到底在干啥想象一下，你正操控一架无人机准备拍摄高空全景。设定目标高度10米后，却发现它要么像醉汉一样在8米处徘徊不前，要么像过山车般冲过头又掉下来…

2026/6/12 9:15:18 阅读更多

告别抓瞎！用C#和网络调试助手一步步“抓包”解析三菱PLC的A-1E报文

实战解析：用C#与网络调试工具深度剖析三菱PLC通信协议在工业自动化领域，三菱PLC与上位机的通信一直是开发者面临的技术难点之一。许多工程师在开发过程中常常陷入"抓瞎"状态——明明按照文档编写了代码，却无法正常通信；…

2026/6/12 9:14:58 阅读更多

C语言链表实战：从零手搓一个学生信息管理系统（附完整源码与内存管理避坑指南）

C语言链表实战：从零手搓一个学生信息管理系统（附完整源码与内存管理避坑指南）当你第一次接触链表这个概念时，是否曾被那些飘忽不定的指针搞得晕头转向？作为C语言中最基础也最重要的数据结构之一，链表在实际…

2026/6/12 9:14:58 阅读更多

网盘直链解析终极指南：一键获取高速下载链接，告别限速烦恼

网盘直链解析终极指南：一键获取高速下载链接，告别限速烦恼【免费下载链接】netdisk-fast-download 聚合多种主流网盘的直链解析下载服务, 一键解析下载，已支持夸克网盘/uc网盘/蓝奏云/蓝奏优享/小飞机盘/123云盘等. 支持文件夹分享解析. 体验…

2026/6/12 9:14:38 阅读更多

遗传算法工程实践：选择交叉变异参数调优与收敛性控制

1. 项目概述：为什么第二部分比第一部分更关键？“遗传算法入门——第二部分”这个标题看似平平无奇，但背后藏着一个被大量初学者忽略的真相：第一部分讲的是“遗传算法长什么样”，而第二部分才真正回答“它为什么能工作”…

2026/6/12 9:13:37 阅读更多

Android毕业设计-基于Android的医院健康管理平台的设计与实现基于springboot+Android的健康管理应用的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/12 9:13:16 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…