MiniMax M3来了：编程超 GPT-5.5，即将开源

发布时间：2026/6/2 22:33:21

MiniMax M3 今天发布了。一个国产模型同时在编程、百万上下文和原生多模态三条线上都站到了前沿位置而且即将开源。原生多模态支持图片和视频的输入能操作电脑桌面这三种能力是海外闭源前沿模型标配。M3 是国内第一个齐备这些要素的模型也是目前唯一的开源模型。M3 在编程和 Agent智能体评测中逼近甚至超过海外顶级闭源模型用了一套全新的稀疏注意力架构 MSA 来解决超长上下文的计算瓶颈又从训练开始就做原生多模态。实战见真章M3 团队丢给 M3 一篇 ICLR 2025 Outstanding Paper Award杰出论文奖获奖论文Learning Dynamics of LLM Finetuning让它独立复现。这篇论文研究大语言模型微调过程中的学习动力学。M3 自主运行接近 12 小时全程自主产出 18 次 commit代码提交与 23 张实验图表成功跑通核心实验。它吻合了 SFT监督微调阶段的预测概率变化趋势清晰观测到 DPO直接偏好优化实验重点讨论的 squeezing挤压效应还顺利验证了原论文提出的 Extend 缓解方法。这个过程里多模态能力看懂论文里的曲线图、数据和公式长上下文保证论文加代码加实验日志一次性进窗口编程加 Agent 能力驱动长线程甚至并发执行。FP8 矩阵乘GEMM是大模型推理中计算量最集中的环节之一优化难度也最高。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层耦合问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级 FP8 GEMM kernel通常需要资深团队 1 到 2 周的集中投入。M3 的起点仅有一份任务描述、一个 benchmark基准测试评估脚本、一个无法直接运行的 Triton 骨架没有任何 reference参考高性能实现可供参考。模型没法通过模仿已有方案走捷径只能从基本原理出发自主探索优化路径。约 24 小时的连续执行中M3 完成 147 次 benchmark 提交、1959 次工具调用完全自主走完从 baseline基线实现到生产级优化的全部路径包括 baseline 实现、autotune自动调优配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel持久内核重写、host 端调度优化等每一步都通过 benchmark 反馈自我验证无需人工介入。最终 M3 经过 6 轮标志性优化将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%实现 9.4 倍加速。值得关注的还有执行过程除 Opus 4.7 和 M3 外其余模型大多在前 30 次提交内不再取得新进展并主动退出。M3 的最优解出现在第 145 次提交在此之前模型经历了多个性能不再提升的平台期但仍在继续尝试不同优化方向。MSA 的长上下文注意力分配机制在处理高密度、高度结构化的多次工具调用上下文时起到了关键作用。CUDA 优化任务验证的是优化目标明确、反馈信号清晰的单一工程场景。真实研究工作往往没有这么清晰的反馈结构。M3 团队在 PostTrainBench 上做了实测给 M3 四个只完成了预训练的 Base 模型让它 12 小时内自主完成数据合成、训练、评测、迭代的全部流程最终让这些模型在数学推理AIME2025、工具调用BFCL、科学知识推理GPQA Main、基础算术推理GSM8K、代码生成HumanEval任务上具备基本能力。整个数据合成到训练到评测到迭代的流程全程无人干预Agent 需要自己决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。M3 最终得分 0.37略低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39但明显领先其余模型。MSA 撑开百万上下文长上下文是大模型做复杂 Agent 任务的基础设施但全注意力机制的计算复杂度随序列长度平方级增长窗口一长就撑不住。M3 没有在现有架构上缝缝补补直接从最底层的注意力机制动刀提出了 MSAMiniMax Sparse Attention稀疏注意力。MSA 的核心思路是在注意力计算前加一个初筛阶段把 KV键值对分块筛选避免全局计算。和 DSA、MoBA 等同类稀疏方案相比MSA 能更精确地为 KV 分块实现更高的有效上下文覆盖。在算子层面M3 采用了 KV outer gather Q 的方式以 KV 块为外层聚合命中 query。每块只读一次访存连续在 M3 的 head 配比下计算访存比显著优于通行方法比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。简洁、可扩展、硬件友好这些特点让 MSA 的理论收益真正落地。100 万上下文下M3 每 token 计算量仅为上代模型的 1/20。prefilling预填充阶段加速超过 9 倍decoding解码阶段加速超过 15 倍。而且在多个对照实验中MSA 的绝大部分能力与全注意力打平。API 最高支持 1M百万tokens 上下文窗口保障至少 512K tokens 可用。MSA 让上下文成为又一个可以被 scale规模扩展的维度。编程能力冲到前沿编程与 Agent 能力是 M3 重点提升的方向在涵盖软件工程、终端执行等多个维度的国际权威评测中M3 均达到国际领先水平。在 SWE-Bench Pro 上M3 超过 GPT-5.5 和 Gemini 3.1 Pro接近 Opus 4.7。在 SVG-Bench 上M3 超过 Opus 4.7。在 BrowseComp 智能体评测中M3 以 83.5 分超过 Opus 4.7 的 79.3 分展现出强大的自主浏览与信息检索能力。在面向自主 Agent 的端到端评测框架 Claw-Eval 上M3 拿到最高分。光看 Benchmark 不够。当前大多数代码 Agent 的训练与评测都建立在单轮任务的假设上。但真实使用场景里用户往往会在同一个 Session会话中持续协作不断澄清需求、调整方案、交叉派发任务根据中间结果进行多轮迭代优化。为了缩小 Benchmark 与真实体验之间的差距M3 构建了交互式用户模拟器框架。它模拟真实开发者在协作中的行为模式包括需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代让 Agent 从被动执行指令变成主动与用户协同完成任务。下一代 Agent Coding 比的不只是代码生成更要比长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把对编程和 Agent 真正关键的数据 Scale up目标是在真实研发流程中成为开发者可靠的协作伙伴写出的代码目标是直接可交付告别能跑但需要人改的尴尬。多模态是骨子里的M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态路线能让不同模态数据的语义空间更天然、更高度的融合。在数据配比和构成上M3 团队的大量实验显示Interleaved data交错数据对模型性能带来的提升比一般认为的更加关键。所谓交错数据就是文本和图像或其他模态在序列中交替自然排列的数据。这类数据对于整体训练数据的规模扩展也很重要跟单纯叠加图像数据的方式相比交错排列能让模型学到模态之间更细粒度的关联。为此M3 重构了整套数据管线将预训练数据 Token 规模提升至 100 万亿量级。从训练第一天起就同时吃进文本和视觉数据多模态是刻在模型骨子里的原生能力告别后期贴补丁的方式。在 OmniDocBench 多模态文档理解测试集上M3 得分超过 Gemini 3.1 Pro。M3 支持图片和视频输入还能操作电脑桌面具备 Computer Use计算机使用能力。随着 M3 发布MiniMax Code 也迎来更新。作为专为 M3 设计、并与 M3 一起训练的 Agent 产品MiniMax Code 能充分发挥 M3 在长上下文、编程与 Agent、原生多模态方面的能力是搭配 M3 的首选 Agent。在长程复杂任务上MiniMax Code 的 Agent Team 可以将大型任务拆解为多阶段、可并发、可动态调整的 Workflow工作流由 Agent 集群协作推进。通过 Producer生产者加 Verifier验证者的对抗式 Harness脚手架循环Agent Team 能在执行过程中持续产出、反思和修正可自主运行数天无需人工干预。得益于 M3 的原生多模态能力MiniMax Code 具备 Computer Use 能力。用户可以在手机上说帮我打开本地 ERP 客户端按这份 Excel 批量录入发票信息MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。MiniMax Code 是基于社区出色的开源项目 OpenCode 和 Pi Agent 构建的 Harness团队后续计划开源该项目回馈社区。MiniMax Token Plan 同期校准三档配置按相同价格算约是 Claude 订阅的 15 倍用量。老用户原有套餐价格继续保留除了 M2 之外也可以根据相应价格变换使用 M3。API 方面M3 按不同上下文长度分两档计价同时支持两种思考模式thinking 模式适合复杂推理、Agentic 任务与长程协作non-thinking 模式响应更快适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价可在请求时按需切换。M3 API 现已开放使用即将在 HuggingFace 和 GitHub 上完成开源更新模型的技术报告以及开源对应的模型权重支持私有集群部署和微调。参考资料https://www.minimaxi.com/models/text/m3https://minimaxi.com/blog/minimax-m3

LabVIEW TCP通讯避坑指南：从‘能通’到‘稳定’的5个实战配置细节（附2024版范例）

LabVIEW TCP通讯避坑指南：从‘能通’到‘稳定’的5个实战配置细节（附2024版范例）在工业自动化领域，TCP通讯就像设备之间的神经传导系统——基础但至关重要。许多工程师在LabVIEW中实现了"能通"的TCP连接后，往…

2026/6/2 22:32:40 阅读更多

别再只用FuzzyWuzzy了！Python字符串模糊匹配，RapidFuzz和TheFuzz怎么选？实战对比+避坑指南

Python字符串模糊匹配实战：RapidFuzz与TheFuzz深度对比与选型指南当你的Python项目需要进行文本相似度计算时，可能第一个想到的是经典的FuzzyWuzzy库。但作为经验丰富的开发者，我必须告诉你：时代变了！现在有两个更强大…

2026/6/2 22:32:40 阅读更多

保姆级教程：在Linux服务器上从零安装TransDecoder 5.7.1（附常见报错解决）

生物信息学实战：Linux服务器部署TransDecoder 5.7.1全流程指南第一次在Linux服务器上部署生物信息学工具时，那种既兴奋又忐忑的心情我至今记忆犹新。作为生物信息学分析中的瑞士军刀，TransDecoder在转录组数据解读中扮演着关键角色——它能从…

2026/6/2 22:32:20 阅读更多

【AI工具与开发工具整合实战指南】：20年架构师亲授5大高价值集成模式，错过再等一年

更多请点击： https://kaifayun.com 第一章：AI工具与开发工具整合的演进逻辑与核心价值 AI工具与开发工具的整合并非技术堆叠的偶然结果，而是软件工程范式持续演进的必然路径。从早期IDE中简单的语法高亮与自动补全，到如今支持上下…

2026/6/2 23:20:43 阅读更多

内网大模型网关没做好，半夜被通报是常事

内网大模型网关没做好，半夜被通报是常事前言去年年底，我接手了一个集团级的私有化大模型项目。模型跑通了，GPU 资源也调优了。结果就在上线前夜，安全部门一纸通报，说我们的接口没有审计日志，存在数据泄露风…

2026/6/2 23:19:21 阅读更多

如何用OptiScaler一键提升游戏画质：跨显卡渲染优化完整指南

如何用OptiScaler一键提升游戏画质：跨显卡渲染优化完整指南【免费下载链接】OptiScaler OptiScaler bridges upscaling/frame gen across GPUs. Supports DLSS2/XeSS/FSR2 inputs, replaces native upscalers, enables FSR3 FG on non-FG titles. Supports Nukem m…

2026/6/2 23:19:21 阅读更多

12 封装与构造方法

目录🔐 12 封装与构造方法12.1 为什么要封装12.2 private关键字访问修饰符对比使用private修饰成员变量12.3 getter与setter方法12.3.1 基本写法12.3.2 使用getter/setter12.3.3 只读属性与只写属性12.4 this关键字12.4.1 问题引出12.4.2 this的含义12.4.3 this的常…

2026/6/2 23:16:58 阅读更多

告别数据荒！手把手教你用EMIT-Diff和ControlNet给医学图像做“高质量扩增”

告别数据荒！手把手教你用EMIT-Diff和ControlNet给医学图像做“高质量扩增”在医学影像分析领域，数据不足始终是制约模型性能提升的瓶颈。传统的数据增强方法如旋转、翻转、添加噪声等，虽然能一定程度上缓解数据稀缺问题，但生成的样…

2026/6/2 23:16:17 阅读更多

K210开发避坑指南：你的.kmodel文件为啥总加载失败？可能是TF卡路径搞错了

K210开发实战：深度解析.kmodel文件加载失败的核心原因与解决方案当你第一次拿到K210开发板，迫不及待想运行那个人脸检测的例程时，却发现IDE无情地抛出了"File not found"或"Model load failed"的错误提示——这场景是不是…

2026/6/2 23:15:57 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章