11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场 #Grok 4 #代码执行 #新模型首秀 #主榜排名 #工程判断本周赢政指数 v6 主榜最直接的信号是旧模型批量退场新模型一次性涌入。7 个首秀模型中Qwen3 Max 以 80.9 分、Grok 4 以 79.0 分、文心一言 4.5 以 79.0 分直接进入前段位把 DeepSeek V3、R1、文心 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 七个旧模型一次性挤出评测池。新模型首秀即高分旧模型退场速度超预期核心公式 core_overall 0.55×代码执行 0.45×材料约束本周新模型在代码执行上普遍给出了 87-94 的高分段。豆包 Pro 代码执行 94.60、Grok 4 93.90、Qwen3 Max 89.70均高于同期退出的 GPT-4o59.8 分和 Claude Opus 4.661.6 分。材料约束维度同样如此Claude Opus 4.7 达到 87.50远超旧版 Claude。这不是渐进式迭代而是版本代差的直接体现。旧模型在 2025 年底的材料约束普遍卡在 70-75 区间新模型一上来就把天花板拉到 85导致旧榜单在单周内失效。Grok 4 登顶的真实支撑当前排名第一的 Grok 4主榜 89.90代码执行 93.90材料约束 85.00工程判断 82.10。它在代码执行上仅次于豆包 Pro却在材料约束上领先豆包 Pro 3.4 分这 0.45 权重带来的 1.53 分优势直接把豆包 Pro 挤到第三。Claude Opus 4.7 以 89.04 分紧随其后材料约束 87.50 是目前最高工程判断侧榜AI 辅助评估93.10 也最强。但代码执行 90.30 落后 Grok 4 3.6 分最终以 0.86 分之差居第二。侧榜信号任务表达出现明显分化GPT-o3 任务表达单周暴涨 62.5 分Claude Sonnet 4.6 上涨 57.8 分Gemini 2.5 Pro 上涨 54.6 分。这些增幅远超主榜变化说明模型在指令遵循和多轮对话一致性上仍有快速迭代空间。值得注意的是稳定性维度基于分数标准差计算在本周并未直接体现在主榜但多次回答同类题目的波动情况仍需持续跟踪31.7 分的模型在实际部署中可能出现输出漂移。谁会成为下一周的变量7 个新模型中GPT-5.5 和文心一言 4.5 目前排在第 10、11 位代码执行分别为 81.90 和 78.00还有 5-8 分提升空间。若下周它们继续保持迭代节奏主榜前五将被进一步挤压。旧模型集体退场后评测池的“代际差”被一次性抹平未来排名将更多取决于单周增量而非历史积累。新模型首秀即顶尖旧模型一周清零——2026 年的 AI 排行榜已经进入“周更即生死”的阶段。数据来源赢政指数 (YZ Index) | Run #154 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接