太震撼了1T参数大模型生成速度1000 tokens/s最高1200 tokens/s。这就是小米MiMo团队联合TileRT刚刚发布MiMo-V2.5-Pro-UltraSpeed万亿参数模型首次突破1000 tokens/s解码速度峰值可达约1200 tokens/s。小米用一台标准8卡通用GPU服务器就撑起了1T旗舰模型的千速输出。1T模型千token每秒在此之前万亿参数模型的推理速度一直受限于内存带宽和算力瓶颈行业普遍认为要在这个量级实现千速输出必须依赖专用硬件。当前业内实现类似极端速度通常靠专用硬件。Cerebras用晶圆级集成把一整块晶圆当作一颗芯片用Groq用纯片上SRAM定制架构把所有计算资源堆在片上都是硬件堆出来的速度。小米选了另一条路在通用GPU上靠模型与系统的深度 Codesign协同设计跑出了更亮眼的速度。一台标准8卡GPU节点1T模型1000 tokens/s输出没有定制芯片没有专属硬件全靠算法和系统的极致配合。任何拥有标准GPU算力的团队理论上都能复现类似的推理效率。MiMo-V2.5-Pro-UltraSpeed API同步上线限时促销价MiMo-V2.5-Pro的3倍价格换约10倍生成速度。3倍价钱10倍体验仅限API调用不支持Token套餐。万亿参数级别突破1000 tps每秒token数它将从根本上改变AI应用的范式。例如10秒即可搭建一个贪吃蛇游戏1分钟就能复刻一个MacOS界面。速度本身开始转化为智能。以前面对一个复杂任务只需要等待很久生成结果还不一定对。现在同样的时间窗口内模型可以并行跑几十条推理路径在后台自动验证、自我纠正直接提升推理质量。Coding Agent编程代理的生产力天花板被彻底打开。以前用AI写代码开发者坐在屏幕前干等整个开发节奏被模型的速度拖慢。1000 tps下代码生成速度和生产效率迎来范式级加速几秒钟就能跑完一个完整模块的生成和验证开发者的等待时间从分钟级压缩到秒级。而且万亿参数模型可以进入实时决策循环了。毫秒级的思考响应周期让1T旗舰模型无缝嵌入时间敏感场景高频量化交易信号生成、实时反欺诈拦截、智能竞价、即时交互对话。当这种能力进入手术室辅助和医学影像分析AI的速度就不再只是效率指标变成了与死神赛跑的筹码。手术台上AI每省下一秒完成病灶分析和风险预测就给外科医生多一分操作空间。极致协同通向千速之路1000 tokens/s的生成速度是MiMo模型团队与TileRT系统团队深度协作、极致Codesign的杰作。万亿参数规模下传统的8位FP8 / INT8甚至16位推理内存占用和带宽压力到了难以承受的地步。1T参数用FP8存储就需要约1TB显存8卡节点每卡分摊约128GB带宽压力同样巨大。降低参数位宽直接贡献解码速度。MiMo采用经过广泛验证、几乎无损的FP4MXFP4量化格式每个参数只用4位存储模型体积和访存开销直接砍半。FP4全模型一刀切复杂推理、逻辑和代码生成能力会下降这是量化的一贯代价。MiMo-V2.5-Pro采用MoEMixture of Experts混合专家架构Experts占了参数的绝大多数对量化的容忍度也最高因为每个Expert只在一小部分token上激活精度需求天然低于全连接层。MiMo只对MoE Experts做FP4量化注意力模块、归一化层等关键组件保持原始精度。再通过FP4 QATQuantization-Aware Training量化感知训练在训练阶段就模拟量化带来的精度损失让模型主动适应低位宽表示大幅压缩模型体积、最大化硬件带宽利用率模型整体能力与原始版本基本持平如下图所示。传统的Speculative Decoding推测解码靠一个小型草稿模型猜后续token大模型再验证。自回归生成每次前向传播1个token变成并行多token生成验证阶段的拒绝采样保证输出质量无损。瓶颈在于草稿模型质量决定接受率但更强的草稿模型计算开销更大草稿模型太弱接受率上不去太强又拖慢整体速度这是一个根本矛盾。MiMo引入了DFlash一种基于块级掩码并行预测的创新方法。草稿模型不再逐个token串行生成改为一次前向传播填满一整块被掩码的位置从根本上消除了自回归式草稿的串行约束。可以理解为传统方式是逐字书写DFlash是整行填空效率差异显而易见。在MiMo-V2.5-Pro上的部署针对万亿级MoE和长上下文场景做了定制优化。使用Muon二阶优化器和模型自蒸馏确保紧凑的掩码块仍能交付理想的接受率同时把草稿阶段开销压缩到接近理论下限。草稿模型专门使用SWASliding Window Attention滑动窗口注意力与MiMo-V2系列的SWA设计天然对齐消除了对完整前缀的依赖把每次预测的计算量从与上下文长度线性相关降为常数级。训练阶段掩码信号采样下推到GPU本地分片单条序列一步就能产出数万个独立训练信号覆盖多种上下文位置对齐MiMo-V2系列的长上下文能力同时避免跨设备通信开销。结果上并行预测推测解码在高价值的Agent和编程场景中接受长度提升显著大模型每轮验证能一口气确认更多内容。块大小限制为8降低验证开销、提高并发度让高接受长度直接转化为高推理吞吐如下表所示。可以看到Coding场景的接受长度最高这是因为代码的语法结构相对确定草稿模型的预测准确度更高。Coding场景下平均接受长度达到6.30部分样本最高7.14即每轮验证的8个草稿token中有6到7个被接受。草稿模型保持轻量同时把接受率推到了能带来真正端到端收益的水平。在语义更发散、不确定性更高的通用对话场景中当前接受率还不够高团队在持续优化算法探索更高的泛化上限。MiMo的算法创新解开了百亿、万亿参数模型的带宽束缚TileRT推理系统则把通用GPU的物理潜力压榨到微秒级的最后一滴。1000 tokens/s的运行频率下每个算子的生命周期被压缩到微秒级。传统推理系统的算子边界成为核心瓶颈每次算子启动、硬件同步、全局内存往返都在微秒尺度上打断执行流暴露出可见的 Execution Gaps执行间隙。TileRT引入了全新的执行模型从根源消除算子边界带来的执行间隙。Persistent Engine Kernel持久引擎内核彻底抛弃传统的逐算子启动范式让整个计算管线持久驻留在GPU内部持续流动实现全管线连续预取当前Tile还在Tensor Cores上计算时后续数据已经在内存层级中流动数据搬运和计算极致重叠。Warp Specialization异构管线协作在Tile级别通信、数据搬运和张量计算被更细粒度地物理拆分打破同构同步执行模型不同 Warp线程组甚至整个GPU上的异构执行域独立运作又精准协调把GPU变成一个持续流动、精密编排的异构执行系统。在底层执行模型把硬件性能推到极限后纯运行时优化开始触及物理边界。TileRT系统团队和小米MiMo团队进行了深度技术共创打破传统软件层边界。模型层最终采用了MoE Experts混合FP4量化策略部署了与SWA对齐的DFlash推测解码。TileRT与这些算法特性和量化方案紧密耦合交付定制编译引擎和计算内核。两个团队基于硬件物理做了深入的联合工程权衡确保执行压力在硬件边界内平滑闭合。TileRT是一家专注于下一代AI基础设施和超低延迟推理的前沿系统架构团队致力于在前沿大模型的生产环境中实现毫秒级实时响应用全新运行时架构打破传统存算壁垒。团队构想并实现了范式级执行模型通过持久内核、Tile管线和异构协作的全栈突破在复杂异构生态中实现极致计算利用率。MiMo-V2.5-Pro-FP4-DFlash已在HuggingFace开源包含FP4量化权重和DFlash模型参数。MiMo-V2.5的UltraSpeed支持也在路上。参考资料https://mimo.xiaomi.com/zh/blog/mimo-tilert-1000tpshttps://platform.xiaomimimo.com/docs/zh-CN/model-intro/mimo-v2.5-pro-ultraspeed
天下武功,唯快不破!小米推出UltraSpeed,1T参数1000 tokens/s
发布时间:2026/6/11 5:15:58
太震撼了1T参数大模型生成速度1000 tokens/s最高1200 tokens/s。这就是小米MiMo团队联合TileRT刚刚发布MiMo-V2.5-Pro-UltraSpeed万亿参数模型首次突破1000 tokens/s解码速度峰值可达约1200 tokens/s。小米用一台标准8卡通用GPU服务器就撑起了1T旗舰模型的千速输出。1T模型千token每秒在此之前万亿参数模型的推理速度一直受限于内存带宽和算力瓶颈行业普遍认为要在这个量级实现千速输出必须依赖专用硬件。当前业内实现类似极端速度通常靠专用硬件。Cerebras用晶圆级集成把一整块晶圆当作一颗芯片用Groq用纯片上SRAM定制架构把所有计算资源堆在片上都是硬件堆出来的速度。小米选了另一条路在通用GPU上靠模型与系统的深度 Codesign协同设计跑出了更亮眼的速度。一台标准8卡GPU节点1T模型1000 tokens/s输出没有定制芯片没有专属硬件全靠算法和系统的极致配合。任何拥有标准GPU算力的团队理论上都能复现类似的推理效率。MiMo-V2.5-Pro-UltraSpeed API同步上线限时促销价MiMo-V2.5-Pro的3倍价格换约10倍生成速度。3倍价钱10倍体验仅限API调用不支持Token套餐。万亿参数级别突破1000 tps每秒token数它将从根本上改变AI应用的范式。例如10秒即可搭建一个贪吃蛇游戏1分钟就能复刻一个MacOS界面。速度本身开始转化为智能。以前面对一个复杂任务只需要等待很久生成结果还不一定对。现在同样的时间窗口内模型可以并行跑几十条推理路径在后台自动验证、自我纠正直接提升推理质量。Coding Agent编程代理的生产力天花板被彻底打开。以前用AI写代码开发者坐在屏幕前干等整个开发节奏被模型的速度拖慢。1000 tps下代码生成速度和生产效率迎来范式级加速几秒钟就能跑完一个完整模块的生成和验证开发者的等待时间从分钟级压缩到秒级。而且万亿参数模型可以进入实时决策循环了。毫秒级的思考响应周期让1T旗舰模型无缝嵌入时间敏感场景高频量化交易信号生成、实时反欺诈拦截、智能竞价、即时交互对话。当这种能力进入手术室辅助和医学影像分析AI的速度就不再只是效率指标变成了与死神赛跑的筹码。手术台上AI每省下一秒完成病灶分析和风险预测就给外科医生多一分操作空间。极致协同通向千速之路1000 tokens/s的生成速度是MiMo模型团队与TileRT系统团队深度协作、极致Codesign的杰作。万亿参数规模下传统的8位FP8 / INT8甚至16位推理内存占用和带宽压力到了难以承受的地步。1T参数用FP8存储就需要约1TB显存8卡节点每卡分摊约128GB带宽压力同样巨大。降低参数位宽直接贡献解码速度。MiMo采用经过广泛验证、几乎无损的FP4MXFP4量化格式每个参数只用4位存储模型体积和访存开销直接砍半。FP4全模型一刀切复杂推理、逻辑和代码生成能力会下降这是量化的一贯代价。MiMo-V2.5-Pro采用MoEMixture of Experts混合专家架构Experts占了参数的绝大多数对量化的容忍度也最高因为每个Expert只在一小部分token上激活精度需求天然低于全连接层。MiMo只对MoE Experts做FP4量化注意力模块、归一化层等关键组件保持原始精度。再通过FP4 QATQuantization-Aware Training量化感知训练在训练阶段就模拟量化带来的精度损失让模型主动适应低位宽表示大幅压缩模型体积、最大化硬件带宽利用率模型整体能力与原始版本基本持平如下图所示。传统的Speculative Decoding推测解码靠一个小型草稿模型猜后续token大模型再验证。自回归生成每次前向传播1个token变成并行多token生成验证阶段的拒绝采样保证输出质量无损。瓶颈在于草稿模型质量决定接受率但更强的草稿模型计算开销更大草稿模型太弱接受率上不去太强又拖慢整体速度这是一个根本矛盾。MiMo引入了DFlash一种基于块级掩码并行预测的创新方法。草稿模型不再逐个token串行生成改为一次前向传播填满一整块被掩码的位置从根本上消除了自回归式草稿的串行约束。可以理解为传统方式是逐字书写DFlash是整行填空效率差异显而易见。在MiMo-V2.5-Pro上的部署针对万亿级MoE和长上下文场景做了定制优化。使用Muon二阶优化器和模型自蒸馏确保紧凑的掩码块仍能交付理想的接受率同时把草稿阶段开销压缩到接近理论下限。草稿模型专门使用SWASliding Window Attention滑动窗口注意力与MiMo-V2系列的SWA设计天然对齐消除了对完整前缀的依赖把每次预测的计算量从与上下文长度线性相关降为常数级。训练阶段掩码信号采样下推到GPU本地分片单条序列一步就能产出数万个独立训练信号覆盖多种上下文位置对齐MiMo-V2系列的长上下文能力同时避免跨设备通信开销。结果上并行预测推测解码在高价值的Agent和编程场景中接受长度提升显著大模型每轮验证能一口气确认更多内容。块大小限制为8降低验证开销、提高并发度让高接受长度直接转化为高推理吞吐如下表所示。可以看到Coding场景的接受长度最高这是因为代码的语法结构相对确定草稿模型的预测准确度更高。Coding场景下平均接受长度达到6.30部分样本最高7.14即每轮验证的8个草稿token中有6到7个被接受。草稿模型保持轻量同时把接受率推到了能带来真正端到端收益的水平。在语义更发散、不确定性更高的通用对话场景中当前接受率还不够高团队在持续优化算法探索更高的泛化上限。MiMo的算法创新解开了百亿、万亿参数模型的带宽束缚TileRT推理系统则把通用GPU的物理潜力压榨到微秒级的最后一滴。1000 tokens/s的运行频率下每个算子的生命周期被压缩到微秒级。传统推理系统的算子边界成为核心瓶颈每次算子启动、硬件同步、全局内存往返都在微秒尺度上打断执行流暴露出可见的 Execution Gaps执行间隙。TileRT引入了全新的执行模型从根源消除算子边界带来的执行间隙。Persistent Engine Kernel持久引擎内核彻底抛弃传统的逐算子启动范式让整个计算管线持久驻留在GPU内部持续流动实现全管线连续预取当前Tile还在Tensor Cores上计算时后续数据已经在内存层级中流动数据搬运和计算极致重叠。Warp Specialization异构管线协作在Tile级别通信、数据搬运和张量计算被更细粒度地物理拆分打破同构同步执行模型不同 Warp线程组甚至整个GPU上的异构执行域独立运作又精准协调把GPU变成一个持续流动、精密编排的异构执行系统。在底层执行模型把硬件性能推到极限后纯运行时优化开始触及物理边界。TileRT系统团队和小米MiMo团队进行了深度技术共创打破传统软件层边界。模型层最终采用了MoE Experts混合FP4量化策略部署了与SWA对齐的DFlash推测解码。TileRT与这些算法特性和量化方案紧密耦合交付定制编译引擎和计算内核。两个团队基于硬件物理做了深入的联合工程权衡确保执行压力在硬件边界内平滑闭合。TileRT是一家专注于下一代AI基础设施和超低延迟推理的前沿系统架构团队致力于在前沿大模型的生产环境中实现毫秒级实时响应用全新运行时架构打破传统存算壁垒。团队构想并实现了范式级执行模型通过持久内核、Tile管线和异构协作的全栈突破在复杂异构生态中实现极致计算利用率。MiMo-V2.5-Pro-FP4-DFlash已在HuggingFace开源包含FP4量化权重和DFlash模型参数。MiMo-V2.5的UltraSpeed支持也在路上。参考资料https://mimo.xiaomi.com/zh/blog/mimo-tilert-1000tpshttps://platform.xiaomimimo.com/docs/zh-CN/model-intro/mimo-v2.5-pro-ultraspeed