【导语今日Code Arena最新榜单出炉阿里Qwen3.7-Max以1541分闯入全球前四超越GPT-5.5、Gemini 3.5 Flash等顶尖模型成为全球编程模型竞技场上唯一上榜的中国厂商。】Qwen3.7-Max编程竞技赛场的黑马在Code Arena榜单中Qwen3.7-Max以1541分的成绩闯入全球前四超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型仅次于Claude Opus 4.7和Opus 4.6。这意味着在全球编程模型的竞技场上阿里是唯一杀进前列的中国厂商。在海外开发者圈子里Qwen3.7-Max也早有声誉。Atomic Chat的对比测试中Qwen3.7-Max只用$1.32的token成本就超越了Opus 4.7和GPT-5.5且性能提升了56%。在「3D像素风微缩宝塔模型」生成任务中其输出速度和质量也全面胜出。实战挑战Qwen3.7-Max优势尽显在「赛车游戏」挑战中Qwen3.7-Max表现出色。输入详细Prompt后它直出可玩的HTML文件虽第一版有小bug但经过第二轮微调一个体验完整的3D赛车游戏就跑了起来。与其他模型相比Qwen3.7-Max有两个独特细节。一是有正经的开始页面点「Start」才进入比赛而其他三家是打开即跑二是满足了添加发动机轰鸣和吃金币音效的要求而其他模型未做到。此外Gemini 3.5 Flash画面单薄、UI布局有问题Claude Opus 4.6赛道金币少、赛车缺乏随机性GPT-5.5金币造型奇怪且其他三家都修了好几轮bug才跑通全部功能只有Qwen3.7-Max首轮生成就基本可玩。Agent基座模型持久作战能力惊人阿里发布Qwen3.7-Max时将其定位为「Agent基座模型」专为长时间自主执行任务设计。内测数据显示在一次自主编程任务中它连续运行35个小时执行1158次工具调用最终生成的代码相较于Triton参考实现达到了惊人的10倍几何平均加速。在推演进行到第30个小时之后模型依然保持敏锐持续挖掘出新的优化空间全程零上下文退化、零指令漂移、零死循环。绝大多数模型在跑长任务时会出现上下文混乱、进入死循环等问题而Qwen3.7-Max解决了这些难题。核心技术升级环境扩展与长程自主执行Qwen3.7-Max编程能力跃升的核心可能与两个训练方法的升级有关。一是环境扩展编程训练时将每个任务拆成任务本身、执行框架、验证方式三个独立维度自由组合使模型学会解决问题的通用策略在不同框架里表现都很稳定。二是长程自主执行引入「动态累积生存博弈」框架让模型在持续变化的模拟环境中做超过一千步的连续决策自己建立假设、根据反馈调整策略且不出现「上下文腐化」。如在YC-Bench模拟创业公司经营一整年Qwen3.7-Max做到了208万美元营收是上一代的两倍还展现出策略进化。编辑观点Qwen3.7-Max在编程模型领域表现卓越其独特的产品定位和核心技术升级使其具备强大竞争力打破了国外模型的长期统治为全球编程模型竞赛带来新的活力。
Qwen3.7-Max闯入Code Arena全球前四,成本低性能强挑战顶尖模型
发布时间:2026/5/28 7:58:45
【导语今日Code Arena最新榜单出炉阿里Qwen3.7-Max以1541分闯入全球前四超越GPT-5.5、Gemini 3.5 Flash等顶尖模型成为全球编程模型竞技场上唯一上榜的中国厂商。】Qwen3.7-Max编程竞技赛场的黑马在Code Arena榜单中Qwen3.7-Max以1541分的成绩闯入全球前四超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型仅次于Claude Opus 4.7和Opus 4.6。这意味着在全球编程模型的竞技场上阿里是唯一杀进前列的中国厂商。在海外开发者圈子里Qwen3.7-Max也早有声誉。Atomic Chat的对比测试中Qwen3.7-Max只用$1.32的token成本就超越了Opus 4.7和GPT-5.5且性能提升了56%。在「3D像素风微缩宝塔模型」生成任务中其输出速度和质量也全面胜出。实战挑战Qwen3.7-Max优势尽显在「赛车游戏」挑战中Qwen3.7-Max表现出色。输入详细Prompt后它直出可玩的HTML文件虽第一版有小bug但经过第二轮微调一个体验完整的3D赛车游戏就跑了起来。与其他模型相比Qwen3.7-Max有两个独特细节。一是有正经的开始页面点「Start」才进入比赛而其他三家是打开即跑二是满足了添加发动机轰鸣和吃金币音效的要求而其他模型未做到。此外Gemini 3.5 Flash画面单薄、UI布局有问题Claude Opus 4.6赛道金币少、赛车缺乏随机性GPT-5.5金币造型奇怪且其他三家都修了好几轮bug才跑通全部功能只有Qwen3.7-Max首轮生成就基本可玩。Agent基座模型持久作战能力惊人阿里发布Qwen3.7-Max时将其定位为「Agent基座模型」专为长时间自主执行任务设计。内测数据显示在一次自主编程任务中它连续运行35个小时执行1158次工具调用最终生成的代码相较于Triton参考实现达到了惊人的10倍几何平均加速。在推演进行到第30个小时之后模型依然保持敏锐持续挖掘出新的优化空间全程零上下文退化、零指令漂移、零死循环。绝大多数模型在跑长任务时会出现上下文混乱、进入死循环等问题而Qwen3.7-Max解决了这些难题。核心技术升级环境扩展与长程自主执行Qwen3.7-Max编程能力跃升的核心可能与两个训练方法的升级有关。一是环境扩展编程训练时将每个任务拆成任务本身、执行框架、验证方式三个独立维度自由组合使模型学会解决问题的通用策略在不同框架里表现都很稳定。二是长程自主执行引入「动态累积生存博弈」框架让模型在持续变化的模拟环境中做超过一千步的连续决策自己建立假设、根据反馈调整策略且不出现「上下文腐化」。如在YC-Bench模拟创业公司经营一整年Qwen3.7-Max做到了208万美元营收是上一代的两倍还展现出策略进化。编辑观点Qwen3.7-Max在编程模型领域表现卓越其独特的产品定位和核心技术升级使其具备强大竞争力打破了国外模型的长期统治为全球编程模型竞赛带来新的活力。