赢政指数 2026 年 6 月 17 日至 21 日对 11 个模型的 Smoke 快测显示Grok 4 从首日 80.2 分升至末日 100 分趋势上涨 19.8 分成为本周上升幅度最大的模型。稳步上升模型集中于中低基数选手DeepSeek V4 Pro 本周均值 98.7 分首日 97.3 分、末日 100 分趋势上涨 2.7 分波动仅 2.7 分表现最为均衡。GPT-o3 均值 97.9 分趋势上涨 2.3 分末日同样达到 100 分。豆包 Pro 均值 96.7 分趋势上涨 1.2 分末日 96.63 分。Qwen3 Max 从 73.25 分升至 80.82 分趋势上涨 7.6 分均值 87.7 分。文心一言 4.5 从 71.33 分升至 88.28 分趋势上涨 17 分均值 84.3 分。这些模型在连续 7 天 10 题快测中保持正向趋势未出现明显回落。持平模型以高位 Claude 为主Claude Opus 4.7 均值 99.4 分首日 100 分、末日 99.28 分趋势微降 0.7 分波动 2.3 分维持最稳定高位。Claude Sonnet 4.6 均值 96.7 分趋势微降 0.8 分。Gemini 2.5 Pro 均值 92.3 分趋势微升 0.5 分。GPT-5.5 均值 92 分趋势微降 0.8 分。上述模型分数区间收窄尚未形成持续突破。高波动模型风险集中Gemini 2.5 Pro 波动 28.3 分Gemini 3.1 Pro 波动 29 分GPT-5.5 波动 26.3 分Qwen3 Max 波动 26.8 分文心一言 4.5 波动 26.4 分。赢政指数稳定性维度公式为 max(0, 100-stddev×2)高标准差直接导致稳定性分数偏低意味着这些模型在同类题目上的得分一致性较差。Grok 4 波动 19.8 分虽趋势强劲但单日分数跳跃同样显著。诚信评级与可用性信号本周 Smoke 数据未记录诚信评级变化所有模型均维持可运行状态。稳定性与可用性仅作为运行信号不进入主榜代码执行与材料约束维度。下周 Full 评测预判DeepSeek V4 Pro 与 Claude Opus 4.7 因均值高且波动低在下周完整评测中大概率维持前排位置。Grok 4 若延续 19.8 分趋势有可能进入前三但需观察其 19.8 分波动是否收窄。Gemini 系列与 GPT-5.5 的高波动可能继续拉低稳定性分数影响工程判断侧榜表现。Qwen3 Max 与文心一言 4.5 的上升通道仍存但基数较低需在更大样本下验证持续性。高波动模型在 Smoke 阶段已暴露一致性短板下周 Full 评测大概率放大这一差距。数据来源赢政指数 (YZ Index) | Run #190 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接
Grok 4 趋势上涨19.8分领跑 Smoke 周报,Gemini 系列波动超28分
发布时间:2026/6/22 19:04:49
赢政指数 2026 年 6 月 17 日至 21 日对 11 个模型的 Smoke 快测显示Grok 4 从首日 80.2 分升至末日 100 分趋势上涨 19.8 分成为本周上升幅度最大的模型。稳步上升模型集中于中低基数选手DeepSeek V4 Pro 本周均值 98.7 分首日 97.3 分、末日 100 分趋势上涨 2.7 分波动仅 2.7 分表现最为均衡。GPT-o3 均值 97.9 分趋势上涨 2.3 分末日同样达到 100 分。豆包 Pro 均值 96.7 分趋势上涨 1.2 分末日 96.63 分。Qwen3 Max 从 73.25 分升至 80.82 分趋势上涨 7.6 分均值 87.7 分。文心一言 4.5 从 71.33 分升至 88.28 分趋势上涨 17 分均值 84.3 分。这些模型在连续 7 天 10 题快测中保持正向趋势未出现明显回落。持平模型以高位 Claude 为主Claude Opus 4.7 均值 99.4 分首日 100 分、末日 99.28 分趋势微降 0.7 分波动 2.3 分维持最稳定高位。Claude Sonnet 4.6 均值 96.7 分趋势微降 0.8 分。Gemini 2.5 Pro 均值 92.3 分趋势微升 0.5 分。GPT-5.5 均值 92 分趋势微降 0.8 分。上述模型分数区间收窄尚未形成持续突破。高波动模型风险集中Gemini 2.5 Pro 波动 28.3 分Gemini 3.1 Pro 波动 29 分GPT-5.5 波动 26.3 分Qwen3 Max 波动 26.8 分文心一言 4.5 波动 26.4 分。赢政指数稳定性维度公式为 max(0, 100-stddev×2)高标准差直接导致稳定性分数偏低意味着这些模型在同类题目上的得分一致性较差。Grok 4 波动 19.8 分虽趋势强劲但单日分数跳跃同样显著。诚信评级与可用性信号本周 Smoke 数据未记录诚信评级变化所有模型均维持可运行状态。稳定性与可用性仅作为运行信号不进入主榜代码执行与材料约束维度。下周 Full 评测预判DeepSeek V4 Pro 与 Claude Opus 4.7 因均值高且波动低在下周完整评测中大概率维持前排位置。Grok 4 若延续 19.8 分趋势有可能进入前三但需观察其 19.8 分波动是否收窄。Gemini 系列与 GPT-5.5 的高波动可能继续拉低稳定性分数影响工程判断侧榜表现。Qwen3 Max 与文心一言 4.5 的上升通道仍存但基数较低需在更大样本下验证持续性。高波动模型在 Smoke 阶段已暴露一致性短板下周 Full 评测大概率放大这一差距。数据来源赢政指数 (YZ Index) | Run #190 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接