11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

发布时间：2026/6/10 23:54:15

#Grok 4 #代码执行 #新模型首秀 #主榜排名 #工程判断本周赢政指数 v6 主榜最直接的信号是旧模型批量退场新模型一次性涌入。7 个首秀模型中Qwen3 Max 以 80.9 分、Grok 4 以 79.0 分、文心一言 4.5 以 79.0 分直接进入前段位把 DeepSeek V3、R1、文心 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 七个旧模型一次性挤出评测池。新模型首秀即高分旧模型退场速度超预期核心公式 core_overall 0.55×代码执行 0.45×材料约束本周新模型在代码执行上普遍给出了 87-94 的高分段。豆包 Pro 代码执行 94.60、Grok 4 93.90、Qwen3 Max 89.70均高于同期退出的 GPT-4o59.8 分和 Claude Opus 4.661.6 分。材料约束维度同样如此Claude Opus 4.7 达到 87.50远超旧版 Claude。这不是渐进式迭代而是版本代差的直接体现。旧模型在 2025 年底的材料约束普遍卡在 70-75 区间新模型一上来就把天花板拉到 85导致旧榜单在单周内失效。Grok 4 登顶的真实支撑当前排名第一的 Grok 4主榜 89.90代码执行 93.90材料约束 85.00工程判断 82.10。它在代码执行上仅次于豆包 Pro却在材料约束上领先豆包 Pro 3.4 分这 0.45 权重带来的 1.53 分优势直接把豆包 Pro 挤到第三。Claude Opus 4.7 以 89.04 分紧随其后材料约束 87.50 是目前最高工程判断侧榜AI 辅助评估93.10 也最强。但代码执行 90.30 落后 Grok 4 3.6 分最终以 0.86 分之差居第二。侧榜信号任务表达出现明显分化GPT-o3 任务表达单周暴涨 62.5 分Claude Sonnet 4.6 上涨 57.8 分Gemini 2.5 Pro 上涨 54.6 分。这些增幅远超主榜变化说明模型在指令遵循和多轮对话一致性上仍有快速迭代空间。值得注意的是稳定性维度基于分数标准差计算在本周并未直接体现在主榜但多次回答同类题目的波动情况仍需持续跟踪31.7 分的模型在实际部署中可能出现输出漂移。谁会成为下一周的变量7 个新模型中GPT-5.5 和文心一言 4.5 目前排在第 10、11 位代码执行分别为 81.90 和 78.00还有 5-8 分提升空间。若下周它们继续保持迭代节奏主榜前五将被进一步挤压。旧模型集体退场后评测池的“代际差”被一次性抹平未来排名将更多取决于单周增量而非历史积累。新模型首秀即顶尖旧模型一周清零——2026 年的 AI 排行榜已经进入“周更即生死”的阶段。数据来源赢政指数 (YZ Index) | Run #154 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

为什么 AI 写得越快，项目反而越容易返工？我做了个交接 Gap 校对器

PRD 写好了，Prompt 调好了，Agent 也跑起来了——几天后发现方向跑偏，细节对不上，得重来。不是 AI 能力不行，是交接出了问题。AI 把执行速度拉满之后，那些"我以为你知道"的隐性假设来不及被发现&a…

2026/6/10 23:53:55 阅读更多

苹果秋季将推Siri AI更新，聚焦用户需求带来全新对话体验

苹果Siri AI更新：秋季登场，集成多元AI功能在全球开发者大会主题演讲中，苹果准备全面推出Siri语音助手的“Apple Intelligence”更新。全新的“Siri AI”预计在今年秋季随操作系统更新亮相，同时还有谷歌助力的苹果设备端基础模型更…

2026/6/10 23:53:34 阅读更多

商标近似查询怎么做？

不管是注册商标还是购买商标，第一步都一样：查近似。不查就上，被驳回、被起诉的风险直接拉满。这篇把商标近似查询的基本方法讲清楚。一、为什么要查近似？注册前查近似： 避免与在先商标冲突，降低被驳回的概率…

2026/6/10 23:52:54 阅读更多

Django学习教程（十）Django Admin后台管理模块

Django学习教程（十）Django Admin后台管理模块前言1.创建管理员账号2.启动项目3.注册文章模型4.管理文章数据5.优化后台显示6.添加搜索功能7.总结前言上一篇我们学习了Django Shell的基本使用，可以通过命令行操作文章数据。这一篇我们来学习D…

2026/6/10 23:58:19 阅读更多

丁虢|GEO全链路归因与ROI测算｜拆解转化全链数据，精算GEO投产比

摘要：传统SEO流量核算模型仅聚焦关键词排名、曝光、点击等表层流量数据，无法适配AI生成引擎的内容分发逻辑，存在归因错位、收益虚估、投入浪费三大核心问题。本文以GEO（AI生成引擎优化）实战落地为核心，自研…

2026/6/10 23:58:19 阅读更多

五星制评分折线图工具

1、简介用户对影视评分素来有 2 个需求：算小分、折线图。过去通常是“古法手作”确实麻烦。爬虫或自动化抓取都有合规风险，因此本工具的思路是：“众筹”、“拼好分”。即用户借助本工具快捷算小分、共享数据。热门影视的用户算分热情高…

2026/6/10 23:58:19 阅读更多

第13章：模型保存、导出与本地推理封装

1 项目背景业务场景算法团队训练好客服工单分类模型后，后端工程师小李需要把这个模型集成到 Spring Boot 服务中。小陈把模型文件打包发给了小李——一个文件夹，里面有 config.json、pytorch_model.bin、tokenizer_config.json、vocab.txt 等 7 个文件。小李打开一看就…

2026/6/10 23:57:17 阅读更多

MATLAB一键跳过标题行读取.dat数据并按列提取数值

本文还有配套的精品资源，点击获取简介：一套开箱即用的MATLAB脚本，专为处理实验采集类.dat文件设计——这类文件开头常带多行文本说明（如时间、设备参数、单位注释等），后续才是空格或制表符分隔的纯数值…

2026/6/10 23:57:17 阅读更多

第16章：基础篇综合实战：企业客服文本智能分派系统

1 项目背景业务场景经过前面 15 章的学习，团队已经掌握了 Transformers 的核心能力：Pipeline 快速推理、Tokenizer 文本预处理、文本分类/NER/QA 任务训练、Embedding 语义搜索、Trainer 训练框架、模型评估、推理封装和 FastAPI 部署。现在，技术经理要求将这些分散的能…

2026/6/10 23:56:36 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章

为什么 AI 写得越快，项目反而越容易返工？我做了个交接 Gap 校对器

苹果秋季将推Siri AI更新，聚焦用户需求带来全新对话体验

商标近似查询怎么做？

Django学习教程（十）Django Admin后台管理模块

丁虢|GEO全链路归因与ROI测算｜拆解转化全链数据，精算GEO投产比

五星制评分折线图工具

第13章：模型保存、导出与本地推理封装

MATLAB一键跳过标题行读取.dat数据并按列提取数值

第16章：基础篇综合实战：企业客服文本智能分派系统

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因