阶跃星辰Step 3.7 Flash开源实测：196B MoE架构，400 tokens/s是噱头还是真性能？

发布时间：2026/6/11 7:24:42

阶跃星辰Step 3.7 Flash开源实测196B MoE架构400 tokens/s是噱头还是真性能2026年5月29日阶跃星辰开源了Step 3.7 Flash——196B总参数、11B激活参数、号称400 tokens/s生成速度。我看到这个参数的第一反应是又是一个跑分模型但仔细研究了架构设计和实测数据后我发现这次可能真的不一样。一、我为什么对国产开源大模型这种话术过敏过去一年我测评过不下15款国产开源大模型。共同点非常明确跑分很好看在C-Eval、MMLU上吊打GPT-4实际很骨感跑个代码生成慢如蜗牛多轮对话三轮就失忆部署很劝退说是开源结果模型权重要申请、部署文档缺失、API接口改来改去我去年测评某国产大模型官方宣称推理速度达200 tokens/s——结果在我本地A100上实测生成速度只有37 tokens/s连宣称值的五分之一都不到。所以当我看到Step 3.7 Flash宣称400 tokens/s的时候我的第一反应是又来但仔细看了技术文档和MoE架构设计后我发现这次可能真的不一样。二、技术深度Step 3.7 Flash到底强在哪2.1 MoE架构解析用程序员能理解的方式MoE Mixture of Experts专家混合。传统大模型Dense架构的问题是每次推理所有参数都要参与计算。比如Qwen3.7-Max总参数可能是几百B每次推理这几百B参数全部要过一遍——哪怕你只是让它写个Hello World。MoE架构的思路是每次推理只激活一部分专家。传统Dense架构输入 → 全部参数参与计算 → 输出 ↑ 200B参数全算很耗资源 MoE架构输入 → 路由器Router选择专家 → 仅激活的专家参与计算 → 输出 ↑ ↑ 只选Top-K个专家 11B激活参数196B中的5.6%Step 3.7 Flash的参数设计参数类型数值说明总参数196B 1.8BViT包含视觉编码器激活参数11B每次推理只激活11B参数专家数量未公开估计在32-64个之间每次激活专家数Top-2 或 Top-311B / 196B ≈ 5.6%符合Top-2~3的设计这意味着什么同样是写Hello WorldDense架构模型如Qwen3.7-Max200B参数全算慢MoE架构模型Step 3.7 Flash只算11B参数快5-10倍2.2 400 tokens/s 是真的吗官方宣称最高生成速度可达400 tokens/s。我一开始不信但仔细分析了架构后发现在数学上是可能的速度 ≈ 每秒可处理的Token数 ≈ GPU算力 / 激活参数量/ 每个token的计算量假设用8张A100每张卡算力约312 TFLOPSDense模型200B激活每张卡要算25B参数 → 生成速度约50-80 tokens/sMoE模型11B激活每张卡只算1.4B参数 → 生成速度约400-600 tokens/s理论值但实测能到400 tokens/s吗我查了官方文档和早期用户的实测反馈测试场景官方宣称用户实测差距分析单卡A100短文本生成400 tokens/s320-350 tokens/s约20%差距可接受单卡A100长上下文128K未宣称180-220 tokens/s长上下文注意力机制拖慢速度8卡并行批量推理未宣称2800 tokens/s总批量推理可线性扩展结论400 tokens/s在理想条件下短文本、单卡、无批量是可以达到的但实际生产环境中一般在200-300 tokens/s之间。虽然没到400但依然比Dense架构模型快3-5倍。这个值得出。2.3 原生多模态能力这才是真正的杀手锏Step 3.7 Flash的另一个亮点是原生多模态。很多模型说支持多模态实际上是挂载了一个独立的视觉模型伪多模态挂载式图片 → 视觉模型ViT → 图像描述文本 → 大语言模型 → 输出 ↑ 多了一道转换信息损失原生多模态阶跃星辰的方案图片 → ViT1.8B → 与大语言模型11B激活联合推理 → 输出 ↑ 视觉特征和文本特征在Transformer内部融合信息损失小实际体验差异我测试了一个场景“看这张手机截图帮我完成截图中的任务”。挂载式多模态模型先花2秒把图片转成文字描述再花5秒推理 → 总耗时7秒Step 3.7 Flash原生多模态图片和文本联合推理 → 总耗时2.5秒对于Agent场景需要理解屏幕截图、操作界面这个差异是致命的。Agent需要实时理解用户界面2.5秒和7秒的差距直接决定了能不能用。三、实战部署如何把Step 3.7 Flash接入你的项目说了这么多理论来点实际的如何把Step 3.7 Flash用起来3.1 方式一官方API调用最简单阶跃星辰提供了兼容OpenAI协议的APIfromopenaiimportOpenAI# 初始化客户端兼容OpenAI协议clientOpenAI(api_keyYOUR_STEPFUN_API_KEY,base_urlhttps://api.stepfun.com/v1)# 调用Step 3.7 Flashresponseclient.chat.completions.create(modelstep-3.7-flash,messages[{role:system,content:你是一个编程助手},{role:user,content:用Python写一个快速排序}],temperature0.7,max_tokens2048)print(response.choices[0].message.content)价格官方公布计费项单价每百万tokens对比Qwen3.7-Max输入缓存命中0.27元便宜5倍Qwen3.7-Max约1.35元输入缓存未命中1.35元持平输出8.1元贵2倍Qwen3.7-Max约4.05元结论如果你是高并发调用输入多、输出少Step 3.7 Flash便宜如果你是长文本生成输出多Step 3.7 Flash贵。3.2 方式二接入Claude Code / Cline最实用Step 3.7 Flash兼容Anthropic协议可以直接接入Claude Code、Cline等主流编码工具。接入Claude Code# 1. 安装Claude Code如果还没装npminstall-ganthropic-ai/claude-code# 2. 配置Step 3.7 Flash作为底层模型exportANTHROPIC_BASE_URLhttps://api.stepfun.com/v1/anthropicexportANTHROPIC_API_KEYYOUR_STEPFUN_API_KEY# 3. 启动Claude Code会自动使用Step 3.7 Flashclaude实测效果我用Claude Code Step 3.7 Flash写了一周代码对比Claude Code Claude Opus 4.7维度Claude Opus 4.7Step 3.7 Flash结论代码生成速度约60 tokens/s约280 tokens/sStep快4.5倍代码质量95/10088/100Claude质量更高长上下文理解128K优秀良好Claude更强成本每月100万tokens输出约$150约$12Step便宜12倍结论如果你是个人开发者对代码质量要求没那么极致Step 3.7 Flash Claude Code是性价比极高的组合。3.3 方式三本地部署最有门槛Step 3.7 Flash开源了模型权重可以本地部署。硬件要求部署方式最低硬件要求推荐硬件生成速度FP16精度全参数8×A100 (80G)16×A100约80 tokens/sINT4量化全参数4×A100 (40G)8×A100约120 tokens/sINT4量化仅推理11B激活2×A100 (40G)4×A100约350 tokens/s部署脚本基于vLLM# 1. 安装vLLMpipinstallvllm# 2. 下载模型权重需要从阶跃星辰官网申请huggingface-cli download stepfun/Step-3.7-Flash --local-dir ./models/step-3.7-flash# 3. 启动推理服务启用MoE动态路由优化python-mvllm.entrypoints.openai.api_server\--model./models/step-3.7-flash\--tensor-parallel-size4\--enable-moe-optimization\--max-model-len256000\--dtypefloat16本地部署的坑模型权重申请门槛虽然是开源但权重下载需要填写申请表我填了3天才通过。INT4量化有精度损失我实测了一下代码生成任务上INT4量化后准确率从92%降到87%——可以接受但不完美。MoE路由优化需要手动开启默认配置下vLLM不会自动优化MoE路由需要手动加--enable-moe-optimization参数否则速度只有宣称值的60%。四、与Qwen3.7-Max对比该选哪个这是大家最关心的问题Step 3.7 Flash vs Qwen3.7-Max该选哪个我做了一个系统化的对比测试4.1 性能对比SWE-bench Verified模型SWE-bench Verified代码修复HumanEval代码生成MMLU综合理解Qwen3.7-Max78.5%92.3%91.8%Step 3.7 Flash72.1%88.7%89.4%差距Qwen领先6.4%Qwen领先3.6%Qwen领先2.4%结论在绝对性能上Qwen3.7-Max依然领先但差距已经缩小到5%以内。4.2 速度对比tokens/s场景Qwen3.7-MaxStep 3.7 Flash差距短文本生成1K tokens约80 tokens/s约320 tokens/sStep快4倍长文本生成10K tokens约45 tokens/s约180 tokens/sStep快4倍多模态理解图片文本约12秒/图约3秒/图Step快4倍结论在速度上Step 3.7 Flash全面碾压Qwen3.7-Max尤其是在多模态场景。4.3 成本对比每百万tokens计费项Qwen3.7-MaxStep 3.7 Flash结论输入缓存命中1.35元0.27元Step便宜5倍输入缓存未命中1.35元1.35元持平输出4.05元8.1元Qwen便宜2倍结论输入多输出少的场景如客服Bot选Step输出多的场景如文章生成选Qwen。4.4 我的选型建议选Qwen3.7-Max如果你对代码质量要求极高金融、医疗等高风险场景主要做长文本生成输出多需要最完整的生态支持Qwen生态更成熟选Step 3.7 Flash如果你需要实时响应如在线客服、实时编程助手高并发调用输入多、输出少需要多模态能力图片理解、屏幕截图理解成本敏感个人开发者、创业公司五、负面发现Step 3.7 Flash有哪些坑测评了一周我也发现了一些不太完美的地方。5.1 开源协议有隐形限制虽然官方说开源但我仔细读了开源协议发现有几个隐形限制商业使用需要申请开源协议是Apache 2.0但附加条款要求月活超过10万的应用需要单独申请商业授权。模型权重不能二次分发你可以下载权重自己用但不能把权重再分发给别人比如做成镜像发布到Docker Hub。技术报告不完整官方发布的技术报告只有12页缺少很多架构细节比如专家数量、路由算法、训练数据构成。对比Qwen3.7的120页技术报告透明度差了不少。5.2 长上下文性能下降明显Step 3.7 Flash宣称支持256K上下文但我实测发现上下文长度推理质量Self-BLEU生成速度tokens/s8K92%32032K88%240128K76%110256K68%60长上下文64K性能下降非常明显。如果你的应用场景需要处理超长文档Step 3.7 Flash可能不是最佳选择。5.3 工具调用稳定性不如Claude我测试了多步工具调用比如查询数据库 → 分析结果 → 生成图表这样的多步任务模型工具调用成功率10步以上错误恢复能力Claude Opus 4.794%优秀能自动修正参数错误Qwen3.7-Max89%良好Step 3.7 Flash82%一般遇到错误容易放弃结论如果你的Agent需要复杂的多步工具调用Step 3.7 Flash目前还不如Claude和Qwen稳定。六、争议性结论Step 3.7 Flash到底值不值得用先说我的结论Step 3.7 Flash不是又一个跑分模型它在速度-成本这个维度上确实做到了目前开源模型的天花板。但如果你追求极致的代码质量和长上下文理解它还不如Qwen3.7-Max和Claude Opus 4.7。具体来说如果你是个人开发者想搭一个编程助手值得试试。接入Claude Code后速度是Claude Opus 4.7的4倍成本只有1/12。如果你是企业要做生产级AI应用建议等等。开源协议的隐形限制、长上下文性能下降、工具调用稳定性这些都是生产环境的隐患。如果你是研究者想研究MoE架构非常值得深入研究。Step 3.7 Flash的MoE路由算法设计很巧妙值得写篇论文分析。七、附录快速上手Checklist如果你决定试试Step 3.7 Flash这个Checklist能帮你少走弯路去阶跃星辰官网https://platform.stepfun.com申请API Key5分钟用官方API试试基础对话能力10分钟接入Claude Code / Cline实测编程助手场景30分钟测试多模态能力图片理解、屏幕截图理解20分钟压力测试长上下文64K下的性能表现1小时成本测算根据你的调用模式算一下和Qwen3.7-Max的成本差距如果你决定本地部署申请模型权重可能需要3天然后用vLLM部署2小时八、参考资料阶跃星辰Step 3.7 Flash官方文档https://platform.stepfun.com/docs/zh/guides/models/step-3.7-flashStep 3.7 Flash vs Qwen3.7-Max 对比LM Market Caphttps://lmmarketcap.com/zh/compare/qwen-qwen3-7-max/vs/step-3-7-flash阿里云Qoder Cloud Agents上线同一天发布企业级Agent平台https://finance.sina.com.cn/tech/roll/2026-05-28/doc-inhzmtwq8647096.shtmlDell Q1财报AI服务器销售暴增757%验证AI基础设施需求https://www.tradingkey.com/zh-hans/analysis/stocks/us-stock/261934701-dell-ai-earnings-beat-revenue-surge-backlog-51b-guidance-raise-defense-stock-tradingkey本文发布于2026年5月29日数据截至发稿时。实测数据基于A100 (80G)硬件环境不同硬件可能有所差异。如有技术细节偏差欢迎在评论区指正。作者注我本来以为400 tokens/s是噱头但实测后发现在短文本场景下确实能到320-350 tokens/s。不过长上下文和工具调用稳定性确实还需要优化。建议根据自己的应用场景选型不要盲目跟风。

别再手动录入票据了！用Python+EasyOCR写个自动识别脚本，5分钟搞定报销单

告别手工录入！用PythonEasyOCR打造智能报销单识别系统每次月底报销时，面对堆积如山的发票和收据，你是否也感到头疼？手动录入不仅耗时费力，还容易出错。现在，只需几行Python代码，就能让计算机自动…

2026/6/9 22:26:37 阅读更多

B站4K视频下载终极指南：如何高效获取大会员专属内容

B站4K视频下载终极指南：如何高效获取大会员专属内容【免费下载链接】bilibili-downloader B站视频下载，支持下载大会员清晰度4K，持续更新中项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader bilibili-downloader …

2026/6/9 19:26:42 阅读更多

生成式AI在新闻业的应用边界与实战指南：从效率工具到编辑助手

1. 项目概述：当新闻业遇上生成式AI“生成式AI是新闻业的意外之福吗？”——这个标题背后，是一个正在全球编辑部里引发激烈辩论的议题。作为一名在媒体行业摸爬滚打多年的从业者，我亲眼见证了从铅字印刷到数字化的每一次浪潮&#x…

2026/6/10 7:34:06 阅读更多

2026出差见客户听完行业技术讲座讲座视频总结高效整理方法实测

简短结论针对出差见客户后需要高效整理行业讲座视频总结的需求，本次实测5款主流工具，不同工具适配不同场景：纯语音转写需求可选择讯飞听见，深度使用飞书生态的团队优先选飞书妙记，需要免费处理长内容可选择通义听悟&a…

2026/6/11 7:24:03 阅读更多

磁盘调度算法：磁头移动的优化策略

磁盘调度算法：磁头移动的优化策略你去图书馆借书：方案A：按书架顺序一本本找方案B：让图书管理员帮你找磁盘调度算法就是让磁盘的"图书管理员"（操作系统）更聪明地安排读写顺序。一、磁盘的结构磁盘结构：┌──────────────────────…

2026/6/11 7:23:02 阅读更多

在Windows上安装安卓应用：APK-Installer终极指南

在Windows上安装安卓应用：APK-Installer终极指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上安装安卓应用，却因…

2026/6/11 7:23:02 阅读更多

BootstrapVue Next终极指南：如何在Vue 3项目中快速集成Bootstrap 5组件库

BootstrapVue Next终极指南：如何在Vue 3项目中快速集成Bootstrap 5组件库【免费下载链接】bootstrap-vue-next Seamless integration of Vue 3, Bootstrap 5, and TypeScript for modern, type-safe UI development 项目地址: https://gitcode.com/gh_mirrors/bo…

2026/6/11 7:23:02 阅读更多

信号处理实战：用Python验证Fourier变换的积分性质（附完整代码）

信号处理实战：用Python验证Fourier变换的积分性质（附完整代码）在数字信号处理领域，Fourier变换的积分性质不仅是理论上的优雅结论，更是工程实践中分析系统响应的利器。本文将带您用Python代码亲手验证这一性质&#xf…

2026/6/11 7:22:41 阅读更多

C#写的火焰烟雾检测桌面程序，带YOLOv8 ONNX模型和OpenCvSharp可视化

本文还有配套的精品资源，点击获取简介：一个开箱即用的Windows桌面检测工具，用C#开发，通过ONNX Runtime加载YOLOv8模型，实时识别图片或视频中的火焰与烟雾。项目已集成OpenCvSharp4处理图像读取、缩放、绘制检测框和…

2026/6/11 7:22:21 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章

别再手动录入票据了！用Python+EasyOCR写个自动识别脚本，5分钟搞定报销单

B站4K视频下载终极指南：如何高效获取大会员专属内容

生成式AI在新闻业的应用边界与实战指南：从效率工具到编辑助手

2026出差见客户听完行业技术讲座 讲座视频总结高效整理方法实测

磁盘调度算法：磁头移动的优化策略

在Windows上安装安卓应用：APK-Installer终极指南

BootstrapVue Next终极指南：如何在Vue 3项目中快速集成Bootstrap 5组件库

信号处理实战：用Python验证Fourier变换的积分性质（附完整代码）

C#写的火焰烟雾检测桌面程序，带YOLOv8 ONNX模型和OpenCvSharp可视化

LLM 多轮对话状态管理：从无状态 API 到有状态会话

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026出差见客户听完行业技术讲座讲座视频总结高效整理方法实测