MiniMax M3 今天发布了。一个国产模型同时在编程、百万上下文和原生多模态三条线上都站到了前沿位置而且即将开源。 原生多模态支持图片和视频的输入能操作电脑桌面这三种能力是海外闭源前沿模型标配。M3 是国内第一个齐备这些要素的模型也是目前唯一的开源模型。M3 在编程和 Agent智能体评测中逼近甚至超过海外顶级闭源模型用了一套全新的稀疏注意力架构 MSA 来解决超长上下文的计算瓶颈又从训练开始就做原生多模态。实战见真章M3 团队丢给 M3 一篇 ICLR 2025 Outstanding Paper Award杰出论文奖获奖论文Learning Dynamics of LLM Finetuning让它独立复现。这篇论文研究大语言模型微调过程中的学习动力学。M3 自主运行接近 12 小时全程自主产出 18 次 commit代码提交与 23 张实验图表成功跑通核心实验。它吻合了 SFT监督微调阶段的预测概率变化趋势清晰观测到 DPO直接偏好优化实验重点讨论的 squeezing挤压效应还顺利验证了原论文提出的 Extend 缓解方法。这个过程里多模态能力看懂论文里的曲线图、数据和公式长上下文保证论文加代码加实验日志一次性进窗口编程加 Agent 能力驱动长线程甚至并发执行。FP8 矩阵乘GEMM是大模型推理中计算量最集中的环节之一优化难度也最高。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层耦合问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级 FP8 GEMM kernel通常需要资深团队 1 到 2 周的集中投入。M3 的起点仅有一份任务描述、一个 benchmark基准测试评估脚本、一个无法直接运行的 Triton 骨架没有任何 reference参考高性能实现可供参考。模型没法通过模仿已有方案走捷径只能从基本原理出发自主探索优化路径。约 24 小时的连续执行中M3 完成 147 次 benchmark 提交、1959 次工具调用完全自主走完从 baseline基线实现到生产级优化的全部路径包括 baseline 实现、autotune自动调优配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel持久内核重写、host 端调度优化等每一步都通过 benchmark 反馈自我验证无需人工介入。最终 M3 经过 6 轮标志性优化将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%实现 9.4 倍加速。值得关注的还有执行过程除 Opus 4.7 和 M3 外其余模型大多在前 30 次提交内不再取得新进展并主动退出。M3 的最优解出现在第 145 次提交在此之前模型经历了多个性能不再提升的平台期但仍在继续尝试不同优化方向。MSA 的长上下文注意力分配机制在处理高密度、高度结构化的多次工具调用上下文时起到了关键作用。CUDA 优化任务验证的是优化目标明确、反馈信号清晰的单一工程场景。真实研究工作往往没有这么清晰的反馈结构。M3 团队在 PostTrainBench 上做了实测给 M3 四个只完成了预训练的 Base 模型让它 12 小时内自主完成数据合成、训练、评测、迭代的全部流程最终让这些模型在数学推理AIME2025、工具调用BFCL、科学知识推理GPQA Main、基础算术推理GSM8K、代码生成HumanEval任务上具备基本能力。整个数据合成到训练到评测到迭代的流程全程无人干预Agent 需要自己决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。M3 最终得分 0.37略低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39但明显领先其余模型。MSA 撑开百万上下文长上下文是大模型做复杂 Agent 任务的基础设施但全注意力机制的计算复杂度随序列长度平方级增长窗口一长就撑不住。M3 没有在现有架构上缝缝补补直接从最底层的注意力机制动刀提出了 MSAMiniMax Sparse Attention稀疏注意力。MSA 的核心思路是在注意力计算前加一个初筛阶段把 KV键值对分块筛选避免全局计算。和 DSA、MoBA 等同类稀疏方案相比MSA 能更精确地为 KV 分块实现更高的有效上下文覆盖。在算子层面M3 采用了 KV outer gather Q 的方式以 KV 块为外层聚合命中 query。每块只读一次访存连续在 M3 的 head 配比下计算访存比显著优于通行方法比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。简洁、可扩展、硬件友好这些特点让 MSA 的理论收益真正落地。100 万上下文下M3 每 token 计算量仅为上代模型的 1/20。prefilling预填充阶段加速超过 9 倍decoding解码阶段加速超过 15 倍。而且在多个对照实验中MSA 的绝大部分能力与全注意力打平。API 最高支持 1M百万tokens 上下文窗口保障至少 512K tokens 可用。MSA 让上下文成为又一个可以被 scale规模扩展的维度。编程能力冲到前沿编程与 Agent 能力是 M3 重点提升的方向在涵盖软件工程、终端执行等多个维度的国际权威评测中M3 均达到国际领先水平。在 SWE-Bench Pro 上M3 超过 GPT-5.5 和 Gemini 3.1 Pro接近 Opus 4.7。在 SVG-Bench 上M3 超过 Opus 4.7。在 BrowseComp 智能体评测中M3 以 83.5 分超过 Opus 4.7 的 79.3 分展现出强大的自主浏览与信息检索能力。在面向自主 Agent 的端到端评测框架 Claw-Eval 上M3 拿到最高分。光看 Benchmark 不够。当前大多数代码 Agent 的训练与评测都建立在单轮任务的假设上。但真实使用场景里用户往往会在同一个 Session会话中持续协作不断澄清需求、调整方案、交叉派发任务根据中间结果进行多轮迭代优化。为了缩小 Benchmark 与真实体验之间的差距M3 构建了交互式用户模拟器框架。它模拟真实开发者在协作中的行为模式包括需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代让 Agent 从被动执行指令变成主动与用户协同完成任务。下一代 Agent Coding 比的不只是代码生成更要比长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把对编程和 Agent 真正关键的数据 Scale up目标是在真实研发流程中成为开发者可靠的协作伙伴写出的代码目标是直接可交付告别能跑但需要人改的尴尬。多模态是骨子里的M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态路线能让不同模态数据的语义空间更天然、更高度的融合。在数据配比和构成上M3 团队的大量实验显示Interleaved data交错数据对模型性能带来的提升比一般认为的更加关键。所谓交错数据就是文本和图像或其他模态在序列中交替自然排列的数据。这类数据对于整体训练数据的规模扩展也很重要跟单纯叠加图像数据的方式相比交错排列能让模型学到模态之间更细粒度的关联。为此M3 重构了整套数据管线将预训练数据 Token 规模提升至 100 万亿量级。从训练第一天起就同时吃进文本和视觉数据多模态是刻在模型骨子里的原生能力告别后期贴补丁的方式。在 OmniDocBench 多模态文档理解测试集上M3 得分超过 Gemini 3.1 Pro。M3 支持图片和视频输入还能操作电脑桌面具备 Computer Use计算机使用能力。随着 M3 发布MiniMax Code 也迎来更新。作为专为 M3 设计、并与 M3 一起训练的 Agent 产品MiniMax Code 能充分发挥 M3 在长上下文、编程与 Agent、原生多模态方面的能力是搭配 M3 的首选 Agent。在长程复杂任务上MiniMax Code 的 Agent Team 可以将大型任务拆解为多阶段、可并发、可动态调整的 Workflow工作流由 Agent 集群协作推进。通过 Producer生产者加 Verifier验证者的对抗式 Harness脚手架循环Agent Team 能在执行过程中持续产出、反思和修正可自主运行数天无需人工干预。得益于 M3 的原生多模态能力MiniMax Code 具备 Computer Use 能力。用户可以在手机上说帮我打开本地 ERP 客户端按这份 Excel 批量录入发票信息MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。MiniMax Code 是基于社区出色的开源项目 OpenCode 和 Pi Agent 构建的 Harness团队后续计划开源该项目回馈社区。MiniMax Token Plan 同期校准三档配置按相同价格算约是 Claude 订阅的 15 倍用量。老用户原有套餐价格继续保留除了 M2 之外也可以根据相应价格变换使用 M3。API 方面M3 按不同上下文长度分两档计价同时支持两种思考模式thinking 模式适合复杂推理、Agentic 任务与长程协作non-thinking 模式响应更快适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价可在请求时按需切换。M3 API 现已开放使用即将在 HuggingFace 和 GitHub 上完成开源更新模型的技术报告以及开源对应的模型权重支持私有集群部署和微调。参考资料https://www.minimaxi.com/models/text/m3https://minimaxi.com/blog/minimax-m3
MiniMax M3来了:编程超 GPT-5.5,即将开源
发布时间:2026/6/2 22:33:21
MiniMax M3 今天发布了。一个国产模型同时在编程、百万上下文和原生多模态三条线上都站到了前沿位置而且即将开源。 原生多模态支持图片和视频的输入能操作电脑桌面这三种能力是海外闭源前沿模型标配。M3 是国内第一个齐备这些要素的模型也是目前唯一的开源模型。M3 在编程和 Agent智能体评测中逼近甚至超过海外顶级闭源模型用了一套全新的稀疏注意力架构 MSA 来解决超长上下文的计算瓶颈又从训练开始就做原生多模态。实战见真章M3 团队丢给 M3 一篇 ICLR 2025 Outstanding Paper Award杰出论文奖获奖论文Learning Dynamics of LLM Finetuning让它独立复现。这篇论文研究大语言模型微调过程中的学习动力学。M3 自主运行接近 12 小时全程自主产出 18 次 commit代码提交与 23 张实验图表成功跑通核心实验。它吻合了 SFT监督微调阶段的预测概率变化趋势清晰观测到 DPO直接偏好优化实验重点讨论的 squeezing挤压效应还顺利验证了原论文提出的 Extend 缓解方法。这个过程里多模态能力看懂论文里的曲线图、数据和公式长上下文保证论文加代码加实验日志一次性进窗口编程加 Agent 能力驱动长线程甚至并发执行。FP8 矩阵乘GEMM是大模型推理中计算量最集中的环节之一优化难度也最高。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层耦合问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级 FP8 GEMM kernel通常需要资深团队 1 到 2 周的集中投入。M3 的起点仅有一份任务描述、一个 benchmark基准测试评估脚本、一个无法直接运行的 Triton 骨架没有任何 reference参考高性能实现可供参考。模型没法通过模仿已有方案走捷径只能从基本原理出发自主探索优化路径。约 24 小时的连续执行中M3 完成 147 次 benchmark 提交、1959 次工具调用完全自主走完从 baseline基线实现到生产级优化的全部路径包括 baseline 实现、autotune自动调优配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel持久内核重写、host 端调度优化等每一步都通过 benchmark 反馈自我验证无需人工介入。最终 M3 经过 6 轮标志性优化将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%实现 9.4 倍加速。值得关注的还有执行过程除 Opus 4.7 和 M3 外其余模型大多在前 30 次提交内不再取得新进展并主动退出。M3 的最优解出现在第 145 次提交在此之前模型经历了多个性能不再提升的平台期但仍在继续尝试不同优化方向。MSA 的长上下文注意力分配机制在处理高密度、高度结构化的多次工具调用上下文时起到了关键作用。CUDA 优化任务验证的是优化目标明确、反馈信号清晰的单一工程场景。真实研究工作往往没有这么清晰的反馈结构。M3 团队在 PostTrainBench 上做了实测给 M3 四个只完成了预训练的 Base 模型让它 12 小时内自主完成数据合成、训练、评测、迭代的全部流程最终让这些模型在数学推理AIME2025、工具调用BFCL、科学知识推理GPQA Main、基础算术推理GSM8K、代码生成HumanEval任务上具备基本能力。整个数据合成到训练到评测到迭代的流程全程无人干预Agent 需要自己决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。M3 最终得分 0.37略低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39但明显领先其余模型。MSA 撑开百万上下文长上下文是大模型做复杂 Agent 任务的基础设施但全注意力机制的计算复杂度随序列长度平方级增长窗口一长就撑不住。M3 没有在现有架构上缝缝补补直接从最底层的注意力机制动刀提出了 MSAMiniMax Sparse Attention稀疏注意力。MSA 的核心思路是在注意力计算前加一个初筛阶段把 KV键值对分块筛选避免全局计算。和 DSA、MoBA 等同类稀疏方案相比MSA 能更精确地为 KV 分块实现更高的有效上下文覆盖。在算子层面M3 采用了 KV outer gather Q 的方式以 KV 块为外层聚合命中 query。每块只读一次访存连续在 M3 的 head 配比下计算访存比显著优于通行方法比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。简洁、可扩展、硬件友好这些特点让 MSA 的理论收益真正落地。100 万上下文下M3 每 token 计算量仅为上代模型的 1/20。prefilling预填充阶段加速超过 9 倍decoding解码阶段加速超过 15 倍。而且在多个对照实验中MSA 的绝大部分能力与全注意力打平。API 最高支持 1M百万tokens 上下文窗口保障至少 512K tokens 可用。MSA 让上下文成为又一个可以被 scale规模扩展的维度。编程能力冲到前沿编程与 Agent 能力是 M3 重点提升的方向在涵盖软件工程、终端执行等多个维度的国际权威评测中M3 均达到国际领先水平。在 SWE-Bench Pro 上M3 超过 GPT-5.5 和 Gemini 3.1 Pro接近 Opus 4.7。在 SVG-Bench 上M3 超过 Opus 4.7。在 BrowseComp 智能体评测中M3 以 83.5 分超过 Opus 4.7 的 79.3 分展现出强大的自主浏览与信息检索能力。在面向自主 Agent 的端到端评测框架 Claw-Eval 上M3 拿到最高分。光看 Benchmark 不够。当前大多数代码 Agent 的训练与评测都建立在单轮任务的假设上。但真实使用场景里用户往往会在同一个 Session会话中持续协作不断澄清需求、调整方案、交叉派发任务根据中间结果进行多轮迭代优化。为了缩小 Benchmark 与真实体验之间的差距M3 构建了交互式用户模拟器框架。它模拟真实开发者在协作中的行为模式包括需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代让 Agent 从被动执行指令变成主动与用户协同完成任务。下一代 Agent Coding 比的不只是代码生成更要比长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把对编程和 Agent 真正关键的数据 Scale up目标是在真实研发流程中成为开发者可靠的协作伙伴写出的代码目标是直接可交付告别能跑但需要人改的尴尬。多模态是骨子里的M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态路线能让不同模态数据的语义空间更天然、更高度的融合。在数据配比和构成上M3 团队的大量实验显示Interleaved data交错数据对模型性能带来的提升比一般认为的更加关键。所谓交错数据就是文本和图像或其他模态在序列中交替自然排列的数据。这类数据对于整体训练数据的规模扩展也很重要跟单纯叠加图像数据的方式相比交错排列能让模型学到模态之间更细粒度的关联。为此M3 重构了整套数据管线将预训练数据 Token 规模提升至 100 万亿量级。从训练第一天起就同时吃进文本和视觉数据多模态是刻在模型骨子里的原生能力告别后期贴补丁的方式。在 OmniDocBench 多模态文档理解测试集上M3 得分超过 Gemini 3.1 Pro。M3 支持图片和视频输入还能操作电脑桌面具备 Computer Use计算机使用能力。随着 M3 发布MiniMax Code 也迎来更新。作为专为 M3 设计、并与 M3 一起训练的 Agent 产品MiniMax Code 能充分发挥 M3 在长上下文、编程与 Agent、原生多模态方面的能力是搭配 M3 的首选 Agent。在长程复杂任务上MiniMax Code 的 Agent Team 可以将大型任务拆解为多阶段、可并发、可动态调整的 Workflow工作流由 Agent 集群协作推进。通过 Producer生产者加 Verifier验证者的对抗式 Harness脚手架循环Agent Team 能在执行过程中持续产出、反思和修正可自主运行数天无需人工干预。得益于 M3 的原生多模态能力MiniMax Code 具备 Computer Use 能力。用户可以在手机上说帮我打开本地 ERP 客户端按这份 Excel 批量录入发票信息MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。MiniMax Code 是基于社区出色的开源项目 OpenCode 和 Pi Agent 构建的 Harness团队后续计划开源该项目回馈社区。MiniMax Token Plan 同期校准三档配置按相同价格算约是 Claude 订阅的 15 倍用量。老用户原有套餐价格继续保留除了 M2 之外也可以根据相应价格变换使用 M3。API 方面M3 按不同上下文长度分两档计价同时支持两种思考模式thinking 模式适合复杂推理、Agentic 任务与长程协作non-thinking 模式响应更快适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价可在请求时按需切换。M3 API 现已开放使用即将在 HuggingFace 和 GitHub 上完成开源更新模型的技术报告以及开源对应的模型权重支持私有集群部署和微调。参考资料https://www.minimaxi.com/models/text/m3https://minimaxi.com/blog/minimax-m3