全球脑力重组中、美选拔制度改革的底层逻辑作者龍德明宇一2026年6月7日下午5点中国高考数学落幕。教育部教育考试院的评析里最关键的词不是「难」或「易」而是「多想少算」「打破固化模式」「开放性探究设问」。几乎同一历史周期美国SAT已全面数字化全程内置Desmos图形计算器通过算法实现自适应出题路由。但这些改革方向确立的时间远早于ChatGPT发布中国2019年《中国高考评价体系》发布确立「思维考查」方向2024年新结构首次落地、SAT 2022年1月College Board宣布数字化计划。最早的改革方向确立于ChatGPT出现之前近四年。这是一个反直觉的历史错位在大语言模型浪潮席卷全球之前人类最重要的两大选拔系统就已经对「刷题工具人」的选拔路径做出了否定。旧机制的病灶训练冗余度这一共识并非凭空而来。旧选拔机制测量的核心指标可以称之为「训练冗余度」即考生对特定题型的过度拟合程度说白了就是「刷过的题、背过的套路在多大程度上直接转化为分数」。谁刷的题多、背的套路全、肌肉记忆牢谁就能拿到更高分数。PISA多轮测评的结果已经在两端暴露了这一指标的局限性。一端是部分东亚经济体长期表现出的高训练冗余度特征在数学、阅读、科学核心学科上成绩极高但在PISA 2022首次引入的创造性思维测试中中国香港、中国澳门、中国台湾的得分仅接近或低于OECD平均水平提示过度应试训练可能在创造性表达维度上存在边际抑制效应需要承认文化测量偏差、题目语境差异等替代解释尚未被排除这一相关性尚不足以构成因果结论中国大陆未参加该模块尚无直接数据。另一端是美国基础教育系统中普遍存在的训练不足问题在2018-2022周期中美国学生数学基础能力出现显著下滑不少学生连最基本的比例计算和空间直觉都有所欠缺。这两端看似相反实则是同一问题的两面当分数主要由训练冗余度决定时它既无法预测未来学术潜力也无法预测个体解决未知问题的能力。测量工具在两种模式下都失灵了。机器学习领域中过度拟合Overfitting指模型在训练数据上表现极好但在新的未知数据上表现大幅下降的现象意味着模型在训练集上拿了满分但在面对测试集也就是未知的现实问题时表现大幅下滑。旧机制批量生产的正是这种「过度拟合」的脑力在训练集标准化题库上精确无误面对测试集真实世界的不确定问题时束手无策。此处借用的是过拟合的结构特征——训练集表现好而泛化表现差——不涉及过拟合的技术机制如参数过多、正则化不足等。大语言模型的出现使「训练冗余度」的社会价值快速贬值。大语言模型本身不是过度拟合的产物恰恰相反它通过规模化训练和正则化技术regularization防止模型过拟合的常用技术获得了较强的泛化能力。但它在机械计算和模式匹配任务上的表现已经远超人类平均水平这意味着人类继续在「拟合熟练度」上投入大量时间从社会资源配置的角度看就是低效的内耗。这个问题早在大语言模型出现之前就已存在大语言模型只是让问题暴露得更加充分。两大选拔系统不约而同地做了一件事从机械训练中剥离出真正的心智能力。这一共识的形成背后有清晰的测量学逻辑——用测量学的语言说就是压缩分数中由机械训练和资本投入贡献的系统性偏差让真实能力在测量结果中占据更大权重。二中国从22题到19题2024年1月九省联考首次采用19题新结构。2024年6月新结构正式落地高考。2025年高考沿用19题结构命题进一步向反套路方向深化。改革的政策依据是《深化新时代教育评价改革总体方案》2020年和《中国高考评价体系》2019年时间线清晰这一调整不是大语言模型催生的而是教育评价改革的既定环节。22题变19题不是降低难度是重构考试时间的分配。过去120分钟里考生大约要花40分钟在繁琐的代数消元和多项式展开上。减掉的3道题中相当部分属于纯计算类这40分钟被腾出来成为「现场推理时间」。2024年教育部教育考试院首次明确提出「多想少算」命题原则。2026年官方评析首次明确提出「应教尽教」要求反对超标教学和提前引入高等数学内容。政策措辞的约束性逐步增强。具体题目能清晰呈现这种转向全国Ⅰ卷即新高考Ⅰ卷教育部评析中仍沿用「全国Ⅰ卷」称谓第8题概率统计。传统做法是列举样本空间硬算计算量不小。但利用随机变量取值的对称性真正理解概率本质的学生几秒就能看穿解题路径计算量趋近于零。全国Ⅰ卷第18题解析几何。过去这道题的标准流程是设线、联立、韦达定理、几十行代数运算。2026年的命题把平面几何的直观特征和三角函数结合几何直觉直接取代了机械代数运算。全国Ⅱ卷第11题C选项。直接求相关点坐标计算量会导致考生在考场上卡住。而利用向量点积的几何意义判断角度大小一步到位。全国Ⅰ卷和Ⅱ卷的第19题都采取递进式探究设问由浅入深前一问为后一问铺垫后一问是前一问的延伸。学生必须现场提出假设、分类推理、自我修正、最终收敛结论。靠猜测和套公式难以拿到有效分数。官方评析把这一要求概括为「连贯、严谨的大跨度思维过程」。还有两个细节值得注意。全国Ⅱ卷第15题引入了现实情境通过图表给出电子产品首次出现故障的时间数据要求学生经历「观察、分析、论证」的完整过程。全国Ⅱ卷第18题的曲线方程因参数取值不同而对应不同类型的曲线问题具有开放性学生必须探索尝试才能确定曲线类型。认知科学里有一个经典区分结构化问题well-structured problems和非结构化问题ill-structured problems。结构化问题的条件、目标和路径都明确解题者只需要选择正确的程序执行。非结构化问题的边界模糊、信息冗余或缺失解题者必须先界定问题本身Simon, 1973。旧高考考的是结构化问题的熟练度题型固定解法固定。2026年的命题开始把学生推入非结构化领域一百零八塔的数字特征、电子产品故障的时间分布这些不是数学温室里的练习题它们带着现实噪声要求学生在考场上现场建构问题框架。这种能力在认知科学中叫「远迁移」far transfer即不是在近处套模板而是在陌生领域调动核心概念解决问题。这套命题的逻辑很清楚把「二级结论」「秒杀技巧」「押题密卷」的贡献系统性剥离。旧机制下谁肌肉记忆深、背的套路全谁占优。新机制正在封堵这条捷径尽管目前缺乏大规模统计数据来证实分数分布的实际变化但命题逻辑的转向是清晰的它迫使教学和学习范式做出根本调整。据多家媒体观察2026年高考结束后「二级结论」「秒杀技巧」类教培产品面临显著转型压力传统押题宣传和喜报刷屏现象在各平台明显减少。机构被迫从「套路训练」转向「思维训练」但面临师资短缺原来的老师擅长讲题目解法不擅长引导思维过程。目前尚无权威统计数据系统量化这一转型的规模上述判断基于媒体可观察到的外显现象。美国SAT数字化转型2022年1月25日College Board美国大学理事会正式宣布SAT数字化计划。这时候ChatGPT尚未上线。2024年3月9日数字化SAT在美国本土正式上线。考试时长从3小时缩短到2小时14分钟题量从154题减到98题。三个核心变化第一全程内置Desmos图形计算器。旧SAT数学分两部分一部分禁用计算器。新SAT全程允许使用计算器而且工具直接内嵌在考试软件Bluebook中。第二多阶段自适应测试MSTMulti-Stage Testing即根据考生前一模块答题表现动态分配后续模块难度的考试形式。每个Section分两个Module。Module 1对考生使用相同题目混合了易、中、难各类题目。根据Module 1的答题表现考试系统将考生分配到不同难度的Module 2。进入高难度模块才能解锁该Section的分数上限最高800分/Section。第三题干大幅缩短。旧SAT数学充斥着包裹在美式生活场景里的长篇题干新SAT去除了这些阅读障眼法用更精炼的数学符号和几何结构呈现问题。这里有两个反直觉的发现。一是多所藤校恢复了标化成绩要求。MIT早在2022年即率先恢复SAT/ACT强制提交2024年起哈佛、耶鲁、达特茅斯、布朗先后宣布自2025Fall申请季起恢复要求宾大、康奈尔Cornell于2025年宣布自2026Fall起恢复普林斯顿Princeton于2025年10月宣布将自2028Fall起恢复2026-2027周期仍为可选。8所藤校中哥伦比亚大学Columbia是唯一长期保留test-optional标化可选政策的例外。Caltech、Stanford、Johns Hopkins、Northwestern等顶尖非藤校也先后跟进恢复。这不是招生政策的继续放宽而是收紧。公开理由是GPA膨胀现象过于严重标化成绩能更有效识别真正有学术准备的学生尤其是来自缺乏高阶课程学校的被低估的申请者。二是CAS计算器被禁用。2025年8月起TI-Nspire CX CAS、HP Prime等具有计算机代数系统功能的计算器被禁止带入考场。College Board给出的理由是「这类计算器能自动求解代数问题超出了测试设计的测量范围」。考试内置的Desmos可以使用考生自带的CAS设备不行因为Desmos是计算辅助工具CAS是可以直接替代代数推导过程的系统。还有一个值得注意的细节。2026年以来据多家备考机构观察Hard Module 2高难度第二模块的题目开始出现「Desmos陷阱」含变量的答案无法用Desmos直接得出数字结果必须先完成代数推理才能正确输入。据备考机构Gangnam Prep的观察统计该数据来自单一商业备考机构样本可能存在选择性偏差仅供参考Module 1约60%的题目可以借助Desmos提升答题效率而Hard Module 2由于大量出现含变量的表达式题和概念题这一比例降至35-40%左右。这表明College Board正在主动调整出题策略防止考生把数学考试变成Desmos操作考试。工具可以辅助计算但工具不能替代思考这个边界正在被测试设计者反复校准。SAT改革的官方表述中未提及大语言模型影响。College Board高级副总裁Priscilla Rodriguez表示改革是「回应学生和教育工作者的诉求」主要动力是数字化学习趋势和考试安全需求。改革方向与大语言模型时代的能力要求高度重合但并非由大语言模型直接驱动。三诊断清楚旧机制的病灶训练冗余度之后再来看两大选拔系统改革共享的测量学逻辑。经典测量理论Classical Test Theory心理测量学的基础理论之一里有一个基本公式X T E。其中X是考生的实得分数T是考生的真实能力水平E是测量误差。E不是一个笼统的「噪声」概念。它包含两类分量系统误差和随机误差。随机误差是临场发挥、题目偶然性等不可控因素导致的偏差无法稳定预测。系统误差则不同——在测量学中系统误差指由测量工具或测量条件本身导致的、方向稳定且可重复的偏差。当一种考试工具长期奖励特定类型的训练投入时由此产生的分数偏移恰好满足系统误差的两个核心特征方向稳定刷题越多分数越高效应一致和可重复每一届考生都如此。在这里我们借用并拓展了这个概念将基于机械训练与资本投入堆砌的分数效应定义为选拔机制中规模最大、影响最深的系统误差。严格来说CTT中的系统误差原指测量工具本身的固定偏差我们将其拓展为「测量工具对应试准备的系统性奖励」所产生的分数偏移两者的共同核心在于方向稳定与可重复这一拓展的合法性正在于此。这类误差可以通过反复刷题获得、可以通过付费培训购买、可以靠押题技巧获取。旧模式下系统误差被资本投入和刷题训练堆得极高。这时候X测量的不是真实能力T而是「资本投入总量机械训练时长」。分数高未必代表能力强分数低也未必代表能力差。两大选拔系统改革的共同测量学逻辑是压缩E中的系统误差分量中国通过设置全新题目情境和反套路命题剥离「二级结论」和「秒杀技巧」的系统性贡献。比如全国Ⅰ卷第7题取材于宁夏青铜峡一百零八塔根据各行塔数和总塔数的数字特征设置探究情境。这类题目基本没有现成答题模板很难靠背诵套路解决。美国通过MST自适应路由机制压缩运气成分的影响更精准地定位考生的能力上限。Module 1的表现决定了Module 2的难度层级投机者很难靠答对几道简单题的运气撑起总分。这种修正不是要让E归零那在测量实践中不可能实现。改革要压缩的是E中由资本投入和刷题训练贡献的系统性分量让真实能力T有更多机会在分数中体现出来。考试对教学的反向倒逼效应选拔机制是整个教育系统的杠杆撬动的是教育供给侧的整体变革。中国的高考通过「应教尽教」「不超标」的命题规则强制基础教育阶段教学减速。当高考明确传递出「提前抢跑学习高数内容和背诵二级结论在考试中收效甚微」的信号那些靠引入超纲内容建立升学优势的学校就会失去竞争力。国家通过考试命题的主权倒逼中小学教学回归课标要求的正轨。美国藤校恢复标化成绩要求倒逼K-12系统提供更可衡量的学术准备。GPA膨胀已经到了无法有效区分学生真实水平的程度标化成绩重新成为大学招生中衡量学术能力的锚点。选拔标准发生变化教学体系就不得不跟着调整。这是考试制度最硬的反拨效应washback effect教育测量学概念指考试对教学和学习产生的反向影响。四但测量误差不会凭空消失。压住一种系统误差往往可能引入另一种新的系统误差。中国师资资本差距的新挑战旧模式下题海战术虽残酷但给了普通家庭孩子一条相对确定的上升通道。只要足够勤奋把错题反复练熟就能拿到相对稳定的分数。这条路很窄但路径清晰可见。新机制下「考场上的现场推理」更依赖启发式教学和对概念的深度理解。县域中学普遍缺乏名师资源学生靠个人勤奋提分的边际效益可能出现明显下降。过去县中对抗省城重点中学的武器是时间投入你用启发式教学上1个小时我用高压刷题灌输14个小时在标准化试卷上最终分差并不大。时间投入的积累能够在相当程度上抹平师资差距因为旧题型本身就是高度标准化的标准化的训练对标准化的考试勤奋可以弥补资源的不足。但当高考命题走向「多想少算」和「大跨度论证」单纯的时间资产就失效了。启发式教学依赖的不是教学时长是教师本人的认知深度。一个自己都没有理解向量点积几何直观意义的老师给他14个小时课时也教不出能「几秒看穿解题路径」的学生。这才是改革最残酷的置换效应它用一种无法被勤奋和时间投入抹平的资产即教师的真实认知深度取代了过去可以被汗水抹平的资产。更深层的机制是新题型依赖的「启发式教学」对教师的能力要求与过去显著不同。旧体系下的「经验丰富」指的是刷题经验即带过多少届高三、总结过多少种题型套路。新体系下的「经验丰富」指的是概念理解经验即能不能把一个数学定义从多个角度讲透能不能在学生卡住时给出一个恰到好处的提示而不是直接给出解法。这是两种显著不同的教师能力转换成本极高。早在2024年新高考首考后郑州外国语学校高三数学备课组长王珂在大河网访谈中就指出高考试题倡导「多想少算」、反对「机械式刷题」的导向「正好击中传统教学模式的软肋」。2026届备课组长吴鹏在大象新闻的评析中进一步强调高一高二阶段应「避免过早灌输大量二级结论」回归课标教材。但能说出这种判断的已经是少数重点中学的受访教师。大多数县中教师自己就是在刷题体系中成长起来的他们的知识结构恰恰是这次改革要打破的那种模式。这不是教育公平的倒退但确实制造了新的系统误差来源。我们压缩了「刷题资本」带来的系统误差可能同时引入了「师资资本」带来的新系统误差。竞争的战场从学生个人的勤奋转移到了对优质师资资源的争夺上过去资本投入带来的分数优势可以被个人勤奋部分稀释现在教师认知资本的门槛变成了不可逾越的认知门槛。一个自然的追问是大语言模型能否弥补县中在启发式教学上的短板部分可以但不能抹平。它可以提供一对一解释、错题诊断和苏格拉底式追问但有效使用它本身就是一种元认知能力——学生得知道什么时候追问、追问什么、怎么判断回答的对错。一个习惯了「背套路套公式」的学生拿到大语言模型最自然的用法是「给我步骤」而非「换个角度想」。识别大语言模型在数学推理上的「流畅错误」也需要概念理解深度。更深的困境是启发式教学传递的不只是概念解释还有思维习惯即什么问题值得想、从困惑到收敛的真实路径是什么这些隐性知识通过长期观察教师习得大语言模型没有这个过程也就展示不了这个过程。如果它在教学中制度化普及差距可能再次发生置换从「谁拥有好老师」变为「谁能有效使用大语言模型」而后者与家庭文化资本的相关性并不比前者低。误差不会因为新工具的出现而被根除它只会改变方向。美国文化资源分化的风险美国改革面临的问题更尖锐。公立教育系统推广计算工具辅助教学本来是为了降低学生的数学焦虑、释放更多认知资源用于高阶思维训练。但在缺乏纪律约束和教学质量保障的公立学校里「减负」往往演变成「放任」。底层家庭学生连最基本的比例计算和空间直觉能力都出现了明显下滑。与此同时安多福、埃克塞特这类精英私立学校的学生利用免除机械计算训练省下来的时间在名师指导下开展真正的大学级数据科学学习和复杂建模训练。SAT恢复标化要求的初衷是反直觉的政策设计的目标恰恰是为了识别被GPA膨胀掩盖的底层具有学术潜力的学生。但FairTest等教育公平机构指出考试内置计算器对高收入家庭学生帮助更大这些学生日常学习中更熟悉Desmos工具的使用自适应设计使得考生在Module 1的失误代价更高可能进一步放大阶层差距。阶层分化是客观存在的风险目前尚无权威研究量化即通过数据统计测量规模这一影响的实际规模Brookings学会和NBER美国国家经济研究局等机构尚未发布相关专项研究报告。这一风险判断基于教育技术扩散的经典规律具体影响程度需等待后续实证数据验证。这同样是一种误差置换从「计算能力训练差异带来的系统误差」转为「文化资源获取能力差异带来的系统误差」。两个国家改革中出现的制度摩擦指向同一个结论改革压缩了一种系统误差但往往会引入另一种新的系统误差。这不是改革的失败而是测量工具的固有局限。选拔机制大多存在误差项问题不在于有没有误差而在于哪种误差对社会整体的伤害更小。要判断哪一种误差更可接受需要对两种误差的性质做更细致的比较。旧误差刷题资本的特征是可以被金钱直接购买且购买效果边际递增家庭越有能力支付教培费用、购买名师课程和押题资料分数提升就越稳定、越可预期。它构造的是一条资本直接兑换教育结果的线性通道投入量与产出量之间存在高度可预测的对应关系。对资源匮乏家庭的学生而言这条通道几乎是单向封闭的——不是能力不足而是根本付不起入场券。新误差师资资本与文化资本同样与家庭背景高度相关但其「购买」路径更间接。一个孩子能否在中学阶段遇到真正理解数学概念的教师取决于学区财政、家庭择校能力和居住地这些都难以与阶层剥离。然而认知能力一旦形成就具有可迁移性真正理解向量点积几何意义的学生无论老师是谁都能在考场上一眼看穿解题路径真正形成了数据直觉的学生面对陌生数据集仍能提出合理假设。这意味着新误差并非纯粹的资本置换——在分数与资本之间混进了真实能力的成分。对于教育资源匮乏地区但确实具备推理天分的学生新机制给了他们穿越资源限制的机会尽管这个机会仍然是不公平的、仍然在概率上偏向资源优渥的家庭。以同样来自县城的学生为例。旧机制下分数上限近乎等于「把考纲范围内的题型刷完」的投入总量需要时间需要教辅需要反复模考量不到位分数就上不去这是一个可以被金钱和时间线性填充的缺口。新机制下分数上限更接近「真正理解数学概念」所能抵达的位置师资差距是质的差距而非量的差距——一个自己都没理解概念的老师给再多课时也教不出几何直觉——但真正具备数学天分的学生有可能通过课本自学、通过一道题的顿悟在更少资源下穿越师资限制抵达那个位置。概率很低但通道不再被资本量完全锁死。必须强调的边界是这不是在说新机制更公平。新机制同样不公平只是不公平的性质不同——旧机制的分数天花板由资本投入量决定新机制的分数天花板由可抵达的认知能力决定后者至少在理论上与个体的认知属性相关而不纯粹与家庭财富相关。前者会直接让资本垄断上升通道后者至少还给真实认知能力留下了相当的筛选空间。当然「天赋不平等比财富不平等更可接受」本身是一个需要伦理学论证的价值判断而非自明之理。认知天赋同样受遗传和早期环境的塑造并非纯粹的「应得」。本文不做这一层规范论证只是指出新误差在分数与资本之间混入了真实能力的成分这个结构性差异使得新机制在概率上给了资源匮乏但确有天赋的学生更多被识别出来的机会。但测量的逻辑不要求我们在「公平」的意义上裁决两种误差的高下——更直接的标准是误差与待测能力的关系。旧误差的方向完全由外部资本决定系统地扰乱了分数与能力之间的对应新误差虽然同样与家庭背景相关却指向认知能力的形成条件最终通过改变学生的认知结构来影响分数。这不是说新误差更小而是说它的方向更接近能力本身在测量学意义上这已经是改革能走到的最远一步。五为什么这些改革的方向如此一致不是因为两国都提前预判了大语言模型的到来而是因为它们都看到了同一个长期存在的问题旧选拔机制测量的核心不是人的真实能力而是训练冗余度。大语言模型让这个问题变得无法再被忽视但问题本身早已存在。中国2019年确立「思维考查」方向、2024年新结构首次落地SAT 2022年1月宣布数字化计划——这些时间线清晰地说明改革的核心动力来自教育系统内部的长期积弊大语言模型是让改革共识加速形成的催化剂不是改革的启动器。X T E的测量学修正不会让误差E归零。这类改革本质上都是在做误差置换压住「资本投入和刷题训练」带来的系统误差但可能引入「文化资本和师资资本差异」带来的新系统误差。教育公平不是一次考试改革就能实现的终极状态而是一个持续校准、动态调整的长期过程。但至少压缩训练冗余度的系统性分量能够让真正的认知能力有更多机会在选拔结果中显现出来。当机器在程序化任务上的表现开始逼近并超越人类的平均水平时人类社会被迫回头审视我们究竟应该测量和珍视自身的哪种核心智能。校准从来不是中性的——选择测量什么就是选择奖励什么选择奖励什么就是选择塑造什么样的人。两大选拔体系的教育决策者在没有彼此协商的情况下不约而同地做出了同一个判断在机器已经比人类更擅长执行程序的时代值得被选拔和奖励的人类能力是那些在机器面前仍然稀缺的东西。这不是什么宏大的阳谋本质上就是测量工具的一次校准。一个更深层的解释是机器在程序化任务上对人类的逐步超越一个远早于大语言模型就已开始的结构性事实对人类社会的认知能力评估体系施加了持续累积的压力。从计算器取代手算到搜索引擎取代机械记忆再到CAS系统取代代数推导机器每一次在程序化领域的超越都让相应的训练投入贬值一步。大语言模型是这条逻辑链上最新的、也是最剧烈的一环它在语言理解和模式匹配上的表现开始逼近甚至超越人类平均水平让程序化推理这一最后幸存的高复杂度领域也面临沦陷。但前几次位移替代的是执行层工具帮人算、帮人查推理框架仍须人来搭建。CAS与大语言模型的位移是第一次触及推理支架层本身当工具开始能够构建解题路径而非只是执行计算时改革的临界压力才真正到达阈值。这解释了为什么改革节点集中在这个窗口而不是更早。但这一结构性事实本身早于大语言模型——这正是两大选拔系统改革时间线远早于ChatGPT的原因。大语言模型本身没有意图、没有欲望它的运作可以被完全拆解为统计过程。但恰恰是这样一个没有「自我」的系统在程序化推理任务上的表现逼近人类平均水平这让基于机械训练积累的认知能力评估体系失去了意义基础。人类花十年刷题建立的「因果沉积」即通过重复训练固化的解题路径在一个能够瞬时调用千亿参数统计推理的系统面前其作为能力指针的有效性被瓦解了。回到2026年6月7日下午5点。那些走出考场的学生并不知道他们手中的试卷承载的是一场贯穿两大选拔体系、绵延十余年的全球选拔制度校准的最新一环。他们感受到题目变了——少了繁琐计算多了现场推理未必感受到的是测量的刻度正在整体移动从「谁刷过更多题」转向「谁能在陌生情境里建构问题框架」。刻度不会完美误差会继续置换但方向已经确定。
全球脑力重组-龍德明宇
发布时间:2026/7/6 5:19:30
全球脑力重组中、美选拔制度改革的底层逻辑作者龍德明宇一2026年6月7日下午5点中国高考数学落幕。教育部教育考试院的评析里最关键的词不是「难」或「易」而是「多想少算」「打破固化模式」「开放性探究设问」。几乎同一历史周期美国SAT已全面数字化全程内置Desmos图形计算器通过算法实现自适应出题路由。但这些改革方向确立的时间远早于ChatGPT发布中国2019年《中国高考评价体系》发布确立「思维考查」方向2024年新结构首次落地、SAT 2022年1月College Board宣布数字化计划。最早的改革方向确立于ChatGPT出现之前近四年。这是一个反直觉的历史错位在大语言模型浪潮席卷全球之前人类最重要的两大选拔系统就已经对「刷题工具人」的选拔路径做出了否定。旧机制的病灶训练冗余度这一共识并非凭空而来。旧选拔机制测量的核心指标可以称之为「训练冗余度」即考生对特定题型的过度拟合程度说白了就是「刷过的题、背过的套路在多大程度上直接转化为分数」。谁刷的题多、背的套路全、肌肉记忆牢谁就能拿到更高分数。PISA多轮测评的结果已经在两端暴露了这一指标的局限性。一端是部分东亚经济体长期表现出的高训练冗余度特征在数学、阅读、科学核心学科上成绩极高但在PISA 2022首次引入的创造性思维测试中中国香港、中国澳门、中国台湾的得分仅接近或低于OECD平均水平提示过度应试训练可能在创造性表达维度上存在边际抑制效应需要承认文化测量偏差、题目语境差异等替代解释尚未被排除这一相关性尚不足以构成因果结论中国大陆未参加该模块尚无直接数据。另一端是美国基础教育系统中普遍存在的训练不足问题在2018-2022周期中美国学生数学基础能力出现显著下滑不少学生连最基本的比例计算和空间直觉都有所欠缺。这两端看似相反实则是同一问题的两面当分数主要由训练冗余度决定时它既无法预测未来学术潜力也无法预测个体解决未知问题的能力。测量工具在两种模式下都失灵了。机器学习领域中过度拟合Overfitting指模型在训练数据上表现极好但在新的未知数据上表现大幅下降的现象意味着模型在训练集上拿了满分但在面对测试集也就是未知的现实问题时表现大幅下滑。旧机制批量生产的正是这种「过度拟合」的脑力在训练集标准化题库上精确无误面对测试集真实世界的不确定问题时束手无策。此处借用的是过拟合的结构特征——训练集表现好而泛化表现差——不涉及过拟合的技术机制如参数过多、正则化不足等。大语言模型的出现使「训练冗余度」的社会价值快速贬值。大语言模型本身不是过度拟合的产物恰恰相反它通过规模化训练和正则化技术regularization防止模型过拟合的常用技术获得了较强的泛化能力。但它在机械计算和模式匹配任务上的表现已经远超人类平均水平这意味着人类继续在「拟合熟练度」上投入大量时间从社会资源配置的角度看就是低效的内耗。这个问题早在大语言模型出现之前就已存在大语言模型只是让问题暴露得更加充分。两大选拔系统不约而同地做了一件事从机械训练中剥离出真正的心智能力。这一共识的形成背后有清晰的测量学逻辑——用测量学的语言说就是压缩分数中由机械训练和资本投入贡献的系统性偏差让真实能力在测量结果中占据更大权重。二中国从22题到19题2024年1月九省联考首次采用19题新结构。2024年6月新结构正式落地高考。2025年高考沿用19题结构命题进一步向反套路方向深化。改革的政策依据是《深化新时代教育评价改革总体方案》2020年和《中国高考评价体系》2019年时间线清晰这一调整不是大语言模型催生的而是教育评价改革的既定环节。22题变19题不是降低难度是重构考试时间的分配。过去120分钟里考生大约要花40分钟在繁琐的代数消元和多项式展开上。减掉的3道题中相当部分属于纯计算类这40分钟被腾出来成为「现场推理时间」。2024年教育部教育考试院首次明确提出「多想少算」命题原则。2026年官方评析首次明确提出「应教尽教」要求反对超标教学和提前引入高等数学内容。政策措辞的约束性逐步增强。具体题目能清晰呈现这种转向全国Ⅰ卷即新高考Ⅰ卷教育部评析中仍沿用「全国Ⅰ卷」称谓第8题概率统计。传统做法是列举样本空间硬算计算量不小。但利用随机变量取值的对称性真正理解概率本质的学生几秒就能看穿解题路径计算量趋近于零。全国Ⅰ卷第18题解析几何。过去这道题的标准流程是设线、联立、韦达定理、几十行代数运算。2026年的命题把平面几何的直观特征和三角函数结合几何直觉直接取代了机械代数运算。全国Ⅱ卷第11题C选项。直接求相关点坐标计算量会导致考生在考场上卡住。而利用向量点积的几何意义判断角度大小一步到位。全国Ⅰ卷和Ⅱ卷的第19题都采取递进式探究设问由浅入深前一问为后一问铺垫后一问是前一问的延伸。学生必须现场提出假设、分类推理、自我修正、最终收敛结论。靠猜测和套公式难以拿到有效分数。官方评析把这一要求概括为「连贯、严谨的大跨度思维过程」。还有两个细节值得注意。全国Ⅱ卷第15题引入了现实情境通过图表给出电子产品首次出现故障的时间数据要求学生经历「观察、分析、论证」的完整过程。全国Ⅱ卷第18题的曲线方程因参数取值不同而对应不同类型的曲线问题具有开放性学生必须探索尝试才能确定曲线类型。认知科学里有一个经典区分结构化问题well-structured problems和非结构化问题ill-structured problems。结构化问题的条件、目标和路径都明确解题者只需要选择正确的程序执行。非结构化问题的边界模糊、信息冗余或缺失解题者必须先界定问题本身Simon, 1973。旧高考考的是结构化问题的熟练度题型固定解法固定。2026年的命题开始把学生推入非结构化领域一百零八塔的数字特征、电子产品故障的时间分布这些不是数学温室里的练习题它们带着现实噪声要求学生在考场上现场建构问题框架。这种能力在认知科学中叫「远迁移」far transfer即不是在近处套模板而是在陌生领域调动核心概念解决问题。这套命题的逻辑很清楚把「二级结论」「秒杀技巧」「押题密卷」的贡献系统性剥离。旧机制下谁肌肉记忆深、背的套路全谁占优。新机制正在封堵这条捷径尽管目前缺乏大规模统计数据来证实分数分布的实际变化但命题逻辑的转向是清晰的它迫使教学和学习范式做出根本调整。据多家媒体观察2026年高考结束后「二级结论」「秒杀技巧」类教培产品面临显著转型压力传统押题宣传和喜报刷屏现象在各平台明显减少。机构被迫从「套路训练」转向「思维训练」但面临师资短缺原来的老师擅长讲题目解法不擅长引导思维过程。目前尚无权威统计数据系统量化这一转型的规模上述判断基于媒体可观察到的外显现象。美国SAT数字化转型2022年1月25日College Board美国大学理事会正式宣布SAT数字化计划。这时候ChatGPT尚未上线。2024年3月9日数字化SAT在美国本土正式上线。考试时长从3小时缩短到2小时14分钟题量从154题减到98题。三个核心变化第一全程内置Desmos图形计算器。旧SAT数学分两部分一部分禁用计算器。新SAT全程允许使用计算器而且工具直接内嵌在考试软件Bluebook中。第二多阶段自适应测试MSTMulti-Stage Testing即根据考生前一模块答题表现动态分配后续模块难度的考试形式。每个Section分两个Module。Module 1对考生使用相同题目混合了易、中、难各类题目。根据Module 1的答题表现考试系统将考生分配到不同难度的Module 2。进入高难度模块才能解锁该Section的分数上限最高800分/Section。第三题干大幅缩短。旧SAT数学充斥着包裹在美式生活场景里的长篇题干新SAT去除了这些阅读障眼法用更精炼的数学符号和几何结构呈现问题。这里有两个反直觉的发现。一是多所藤校恢复了标化成绩要求。MIT早在2022年即率先恢复SAT/ACT强制提交2024年起哈佛、耶鲁、达特茅斯、布朗先后宣布自2025Fall申请季起恢复要求宾大、康奈尔Cornell于2025年宣布自2026Fall起恢复普林斯顿Princeton于2025年10月宣布将自2028Fall起恢复2026-2027周期仍为可选。8所藤校中哥伦比亚大学Columbia是唯一长期保留test-optional标化可选政策的例外。Caltech、Stanford、Johns Hopkins、Northwestern等顶尖非藤校也先后跟进恢复。这不是招生政策的继续放宽而是收紧。公开理由是GPA膨胀现象过于严重标化成绩能更有效识别真正有学术准备的学生尤其是来自缺乏高阶课程学校的被低估的申请者。二是CAS计算器被禁用。2025年8月起TI-Nspire CX CAS、HP Prime等具有计算机代数系统功能的计算器被禁止带入考场。College Board给出的理由是「这类计算器能自动求解代数问题超出了测试设计的测量范围」。考试内置的Desmos可以使用考生自带的CAS设备不行因为Desmos是计算辅助工具CAS是可以直接替代代数推导过程的系统。还有一个值得注意的细节。2026年以来据多家备考机构观察Hard Module 2高难度第二模块的题目开始出现「Desmos陷阱」含变量的答案无法用Desmos直接得出数字结果必须先完成代数推理才能正确输入。据备考机构Gangnam Prep的观察统计该数据来自单一商业备考机构样本可能存在选择性偏差仅供参考Module 1约60%的题目可以借助Desmos提升答题效率而Hard Module 2由于大量出现含变量的表达式题和概念题这一比例降至35-40%左右。这表明College Board正在主动调整出题策略防止考生把数学考试变成Desmos操作考试。工具可以辅助计算但工具不能替代思考这个边界正在被测试设计者反复校准。SAT改革的官方表述中未提及大语言模型影响。College Board高级副总裁Priscilla Rodriguez表示改革是「回应学生和教育工作者的诉求」主要动力是数字化学习趋势和考试安全需求。改革方向与大语言模型时代的能力要求高度重合但并非由大语言模型直接驱动。三诊断清楚旧机制的病灶训练冗余度之后再来看两大选拔系统改革共享的测量学逻辑。经典测量理论Classical Test Theory心理测量学的基础理论之一里有一个基本公式X T E。其中X是考生的实得分数T是考生的真实能力水平E是测量误差。E不是一个笼统的「噪声」概念。它包含两类分量系统误差和随机误差。随机误差是临场发挥、题目偶然性等不可控因素导致的偏差无法稳定预测。系统误差则不同——在测量学中系统误差指由测量工具或测量条件本身导致的、方向稳定且可重复的偏差。当一种考试工具长期奖励特定类型的训练投入时由此产生的分数偏移恰好满足系统误差的两个核心特征方向稳定刷题越多分数越高效应一致和可重复每一届考生都如此。在这里我们借用并拓展了这个概念将基于机械训练与资本投入堆砌的分数效应定义为选拔机制中规模最大、影响最深的系统误差。严格来说CTT中的系统误差原指测量工具本身的固定偏差我们将其拓展为「测量工具对应试准备的系统性奖励」所产生的分数偏移两者的共同核心在于方向稳定与可重复这一拓展的合法性正在于此。这类误差可以通过反复刷题获得、可以通过付费培训购买、可以靠押题技巧获取。旧模式下系统误差被资本投入和刷题训练堆得极高。这时候X测量的不是真实能力T而是「资本投入总量机械训练时长」。分数高未必代表能力强分数低也未必代表能力差。两大选拔系统改革的共同测量学逻辑是压缩E中的系统误差分量中国通过设置全新题目情境和反套路命题剥离「二级结论」和「秒杀技巧」的系统性贡献。比如全国Ⅰ卷第7题取材于宁夏青铜峡一百零八塔根据各行塔数和总塔数的数字特征设置探究情境。这类题目基本没有现成答题模板很难靠背诵套路解决。美国通过MST自适应路由机制压缩运气成分的影响更精准地定位考生的能力上限。Module 1的表现决定了Module 2的难度层级投机者很难靠答对几道简单题的运气撑起总分。这种修正不是要让E归零那在测量实践中不可能实现。改革要压缩的是E中由资本投入和刷题训练贡献的系统性分量让真实能力T有更多机会在分数中体现出来。考试对教学的反向倒逼效应选拔机制是整个教育系统的杠杆撬动的是教育供给侧的整体变革。中国的高考通过「应教尽教」「不超标」的命题规则强制基础教育阶段教学减速。当高考明确传递出「提前抢跑学习高数内容和背诵二级结论在考试中收效甚微」的信号那些靠引入超纲内容建立升学优势的学校就会失去竞争力。国家通过考试命题的主权倒逼中小学教学回归课标要求的正轨。美国藤校恢复标化成绩要求倒逼K-12系统提供更可衡量的学术准备。GPA膨胀已经到了无法有效区分学生真实水平的程度标化成绩重新成为大学招生中衡量学术能力的锚点。选拔标准发生变化教学体系就不得不跟着调整。这是考试制度最硬的反拨效应washback effect教育测量学概念指考试对教学和学习产生的反向影响。四但测量误差不会凭空消失。压住一种系统误差往往可能引入另一种新的系统误差。中国师资资本差距的新挑战旧模式下题海战术虽残酷但给了普通家庭孩子一条相对确定的上升通道。只要足够勤奋把错题反复练熟就能拿到相对稳定的分数。这条路很窄但路径清晰可见。新机制下「考场上的现场推理」更依赖启发式教学和对概念的深度理解。县域中学普遍缺乏名师资源学生靠个人勤奋提分的边际效益可能出现明显下降。过去县中对抗省城重点中学的武器是时间投入你用启发式教学上1个小时我用高压刷题灌输14个小时在标准化试卷上最终分差并不大。时间投入的积累能够在相当程度上抹平师资差距因为旧题型本身就是高度标准化的标准化的训练对标准化的考试勤奋可以弥补资源的不足。但当高考命题走向「多想少算」和「大跨度论证」单纯的时间资产就失效了。启发式教学依赖的不是教学时长是教师本人的认知深度。一个自己都没有理解向量点积几何直观意义的老师给他14个小时课时也教不出能「几秒看穿解题路径」的学生。这才是改革最残酷的置换效应它用一种无法被勤奋和时间投入抹平的资产即教师的真实认知深度取代了过去可以被汗水抹平的资产。更深层的机制是新题型依赖的「启发式教学」对教师的能力要求与过去显著不同。旧体系下的「经验丰富」指的是刷题经验即带过多少届高三、总结过多少种题型套路。新体系下的「经验丰富」指的是概念理解经验即能不能把一个数学定义从多个角度讲透能不能在学生卡住时给出一个恰到好处的提示而不是直接给出解法。这是两种显著不同的教师能力转换成本极高。早在2024年新高考首考后郑州外国语学校高三数学备课组长王珂在大河网访谈中就指出高考试题倡导「多想少算」、反对「机械式刷题」的导向「正好击中传统教学模式的软肋」。2026届备课组长吴鹏在大象新闻的评析中进一步强调高一高二阶段应「避免过早灌输大量二级结论」回归课标教材。但能说出这种判断的已经是少数重点中学的受访教师。大多数县中教师自己就是在刷题体系中成长起来的他们的知识结构恰恰是这次改革要打破的那种模式。这不是教育公平的倒退但确实制造了新的系统误差来源。我们压缩了「刷题资本」带来的系统误差可能同时引入了「师资资本」带来的新系统误差。竞争的战场从学生个人的勤奋转移到了对优质师资资源的争夺上过去资本投入带来的分数优势可以被个人勤奋部分稀释现在教师认知资本的门槛变成了不可逾越的认知门槛。一个自然的追问是大语言模型能否弥补县中在启发式教学上的短板部分可以但不能抹平。它可以提供一对一解释、错题诊断和苏格拉底式追问但有效使用它本身就是一种元认知能力——学生得知道什么时候追问、追问什么、怎么判断回答的对错。一个习惯了「背套路套公式」的学生拿到大语言模型最自然的用法是「给我步骤」而非「换个角度想」。识别大语言模型在数学推理上的「流畅错误」也需要概念理解深度。更深的困境是启发式教学传递的不只是概念解释还有思维习惯即什么问题值得想、从困惑到收敛的真实路径是什么这些隐性知识通过长期观察教师习得大语言模型没有这个过程也就展示不了这个过程。如果它在教学中制度化普及差距可能再次发生置换从「谁拥有好老师」变为「谁能有效使用大语言模型」而后者与家庭文化资本的相关性并不比前者低。误差不会因为新工具的出现而被根除它只会改变方向。美国文化资源分化的风险美国改革面临的问题更尖锐。公立教育系统推广计算工具辅助教学本来是为了降低学生的数学焦虑、释放更多认知资源用于高阶思维训练。但在缺乏纪律约束和教学质量保障的公立学校里「减负」往往演变成「放任」。底层家庭学生连最基本的比例计算和空间直觉能力都出现了明显下滑。与此同时安多福、埃克塞特这类精英私立学校的学生利用免除机械计算训练省下来的时间在名师指导下开展真正的大学级数据科学学习和复杂建模训练。SAT恢复标化要求的初衷是反直觉的政策设计的目标恰恰是为了识别被GPA膨胀掩盖的底层具有学术潜力的学生。但FairTest等教育公平机构指出考试内置计算器对高收入家庭学生帮助更大这些学生日常学习中更熟悉Desmos工具的使用自适应设计使得考生在Module 1的失误代价更高可能进一步放大阶层差距。阶层分化是客观存在的风险目前尚无权威研究量化即通过数据统计测量规模这一影响的实际规模Brookings学会和NBER美国国家经济研究局等机构尚未发布相关专项研究报告。这一风险判断基于教育技术扩散的经典规律具体影响程度需等待后续实证数据验证。这同样是一种误差置换从「计算能力训练差异带来的系统误差」转为「文化资源获取能力差异带来的系统误差」。两个国家改革中出现的制度摩擦指向同一个结论改革压缩了一种系统误差但往往会引入另一种新的系统误差。这不是改革的失败而是测量工具的固有局限。选拔机制大多存在误差项问题不在于有没有误差而在于哪种误差对社会整体的伤害更小。要判断哪一种误差更可接受需要对两种误差的性质做更细致的比较。旧误差刷题资本的特征是可以被金钱直接购买且购买效果边际递增家庭越有能力支付教培费用、购买名师课程和押题资料分数提升就越稳定、越可预期。它构造的是一条资本直接兑换教育结果的线性通道投入量与产出量之间存在高度可预测的对应关系。对资源匮乏家庭的学生而言这条通道几乎是单向封闭的——不是能力不足而是根本付不起入场券。新误差师资资本与文化资本同样与家庭背景高度相关但其「购买」路径更间接。一个孩子能否在中学阶段遇到真正理解数学概念的教师取决于学区财政、家庭择校能力和居住地这些都难以与阶层剥离。然而认知能力一旦形成就具有可迁移性真正理解向量点积几何意义的学生无论老师是谁都能在考场上一眼看穿解题路径真正形成了数据直觉的学生面对陌生数据集仍能提出合理假设。这意味着新误差并非纯粹的资本置换——在分数与资本之间混进了真实能力的成分。对于教育资源匮乏地区但确实具备推理天分的学生新机制给了他们穿越资源限制的机会尽管这个机会仍然是不公平的、仍然在概率上偏向资源优渥的家庭。以同样来自县城的学生为例。旧机制下分数上限近乎等于「把考纲范围内的题型刷完」的投入总量需要时间需要教辅需要反复模考量不到位分数就上不去这是一个可以被金钱和时间线性填充的缺口。新机制下分数上限更接近「真正理解数学概念」所能抵达的位置师资差距是质的差距而非量的差距——一个自己都没理解概念的老师给再多课时也教不出几何直觉——但真正具备数学天分的学生有可能通过课本自学、通过一道题的顿悟在更少资源下穿越师资限制抵达那个位置。概率很低但通道不再被资本量完全锁死。必须强调的边界是这不是在说新机制更公平。新机制同样不公平只是不公平的性质不同——旧机制的分数天花板由资本投入量决定新机制的分数天花板由可抵达的认知能力决定后者至少在理论上与个体的认知属性相关而不纯粹与家庭财富相关。前者会直接让资本垄断上升通道后者至少还给真实认知能力留下了相当的筛选空间。当然「天赋不平等比财富不平等更可接受」本身是一个需要伦理学论证的价值判断而非自明之理。认知天赋同样受遗传和早期环境的塑造并非纯粹的「应得」。本文不做这一层规范论证只是指出新误差在分数与资本之间混入了真实能力的成分这个结构性差异使得新机制在概率上给了资源匮乏但确有天赋的学生更多被识别出来的机会。但测量的逻辑不要求我们在「公平」的意义上裁决两种误差的高下——更直接的标准是误差与待测能力的关系。旧误差的方向完全由外部资本决定系统地扰乱了分数与能力之间的对应新误差虽然同样与家庭背景相关却指向认知能力的形成条件最终通过改变学生的认知结构来影响分数。这不是说新误差更小而是说它的方向更接近能力本身在测量学意义上这已经是改革能走到的最远一步。五为什么这些改革的方向如此一致不是因为两国都提前预判了大语言模型的到来而是因为它们都看到了同一个长期存在的问题旧选拔机制测量的核心不是人的真实能力而是训练冗余度。大语言模型让这个问题变得无法再被忽视但问题本身早已存在。中国2019年确立「思维考查」方向、2024年新结构首次落地SAT 2022年1月宣布数字化计划——这些时间线清晰地说明改革的核心动力来自教育系统内部的长期积弊大语言模型是让改革共识加速形成的催化剂不是改革的启动器。X T E的测量学修正不会让误差E归零。这类改革本质上都是在做误差置换压住「资本投入和刷题训练」带来的系统误差但可能引入「文化资本和师资资本差异」带来的新系统误差。教育公平不是一次考试改革就能实现的终极状态而是一个持续校准、动态调整的长期过程。但至少压缩训练冗余度的系统性分量能够让真正的认知能力有更多机会在选拔结果中显现出来。当机器在程序化任务上的表现开始逼近并超越人类的平均水平时人类社会被迫回头审视我们究竟应该测量和珍视自身的哪种核心智能。校准从来不是中性的——选择测量什么就是选择奖励什么选择奖励什么就是选择塑造什么样的人。两大选拔体系的教育决策者在没有彼此协商的情况下不约而同地做出了同一个判断在机器已经比人类更擅长执行程序的时代值得被选拔和奖励的人类能力是那些在机器面前仍然稀缺的东西。这不是什么宏大的阳谋本质上就是测量工具的一次校准。一个更深层的解释是机器在程序化任务上对人类的逐步超越一个远早于大语言模型就已开始的结构性事实对人类社会的认知能力评估体系施加了持续累积的压力。从计算器取代手算到搜索引擎取代机械记忆再到CAS系统取代代数推导机器每一次在程序化领域的超越都让相应的训练投入贬值一步。大语言模型是这条逻辑链上最新的、也是最剧烈的一环它在语言理解和模式匹配上的表现开始逼近甚至超越人类平均水平让程序化推理这一最后幸存的高复杂度领域也面临沦陷。但前几次位移替代的是执行层工具帮人算、帮人查推理框架仍须人来搭建。CAS与大语言模型的位移是第一次触及推理支架层本身当工具开始能够构建解题路径而非只是执行计算时改革的临界压力才真正到达阈值。这解释了为什么改革节点集中在这个窗口而不是更早。但这一结构性事实本身早于大语言模型——这正是两大选拔系统改革时间线远早于ChatGPT的原因。大语言模型本身没有意图、没有欲望它的运作可以被完全拆解为统计过程。但恰恰是这样一个没有「自我」的系统在程序化推理任务上的表现逼近人类平均水平这让基于机械训练积累的认知能力评估体系失去了意义基础。人类花十年刷题建立的「因果沉积」即通过重复训练固化的解题路径在一个能够瞬时调用千亿参数统计推理的系统面前其作为能力指针的有效性被瓦解了。回到2026年6月7日下午5点。那些走出考场的学生并不知道他们手中的试卷承载的是一场贯穿两大选拔体系、绵延十余年的全球选拔制度校准的最新一环。他们感受到题目变了——少了繁琐计算多了现场推理未必感受到的是测量的刻度正在整体移动从「谁刷过更多题」转向「谁能在陌生情境里建构问题框架」。刻度不会完美误差会继续置换但方向已经确定。