阶跃星辰Step 3.7 Flash开源实测:196B MoE架构,400 tokens/s是噱头还是真性能? 阶跃星辰Step 3.7 Flash开源实测196B MoE架构400 tokens/s是噱头还是真性能2026年5月29日阶跃星辰开源了Step 3.7 Flash——196B总参数、11B激活参数、号称400 tokens/s生成速度。我看到这个参数的第一反应是又是一个跑分模型但仔细研究了架构设计和实测数据后我发现这次可能真的不一样。一、我为什么对国产开源大模型这种话术过敏过去一年我测评过不下15款国产开源大模型。共同点非常明确跑分很好看在C-Eval、MMLU上吊打GPT-4实际很骨感跑个代码生成慢如蜗牛多轮对话三轮就失忆部署很劝退说是开源结果模型权重要申请、部署文档缺失、API接口改来改去我去年测评某国产大模型官方宣称推理速度达200 tokens/s——结果在我本地A100上实测生成速度只有37 tokens/s连宣称值的五分之一都不到。所以当我看到Step 3.7 Flash宣称400 tokens/s的时候我的第一反应是又来但仔细看了技术文档和MoE架构设计后我发现这次可能真的不一样。二、技术深度Step 3.7 Flash到底强在哪2.1 MoE架构解析用程序员能理解的方式MoE Mixture of Experts专家混合。传统大模型Dense架构的问题是每次推理所有参数都要参与计算。比如Qwen3.7-Max总参数可能是几百B每次推理这几百B参数全部要过一遍——哪怕你只是让它写个Hello World。MoE架构的思路是每次推理只激活一部分专家。传统Dense架构 输入 → 全部参数参与计算 → 输出 ↑ 200B参数全算很耗资源 MoE架构 输入 → 路由器Router选择专家 → 仅激活的专家参与计算 → 输出 ↑ ↑ 只选Top-K个专家 11B激活参数196B中的5.6%Step 3.7 Flash的参数设计参数类型数值说明总参数196B 1.8BViT包含视觉编码器激活参数11B每次推理只激活11B参数专家数量未公开估计在32-64个之间每次激活专家数Top-2 或 Top-311B / 196B ≈ 5.6%符合Top-2~3的设计这意味着什么同样是写Hello WorldDense架构模型如Qwen3.7-Max200B参数全算慢MoE架构模型Step 3.7 Flash只算11B参数快5-10倍2.2 400 tokens/s 是真的吗官方宣称最高生成速度可达400 tokens/s。我一开始不信但仔细分析了架构后发现在数学上是可能的速度 ≈ 每秒可处理的Token数 ≈ GPU算力 / 激活参数量/ 每个token的计算量假设用8张A100每张卡算力约312 TFLOPSDense模型200B激活每张卡要算25B参数 → 生成速度约50-80 tokens/sMoE模型11B激活每张卡只算1.4B参数 → 生成速度约400-600 tokens/s理论值但实测能到400 tokens/s吗我查了官方文档和早期用户的实测反馈测试场景官方宣称用户实测差距分析单卡A100短文本生成400 tokens/s320-350 tokens/s约20%差距可接受单卡A100长上下文128K未宣称180-220 tokens/s长上下文注意力机制拖慢速度8卡并行批量推理未宣称2800 tokens/s总批量推理可线性扩展结论400 tokens/s在理想条件下短文本、单卡、无批量是可以达到的但实际生产环境中一般在200-300 tokens/s之间。虽然没到400但依然比Dense架构模型快3-5倍。这个值得出。2.3 原生多模态能力这才是真正的杀手锏Step 3.7 Flash的另一个亮点是原生多模态。很多模型说支持多模态实际上是挂载了一个独立的视觉模型伪多模态挂载式 图片 → 视觉模型ViT → 图像描述文本 → 大语言模型 → 输出 ↑ 多了一道转换信息损失 原生多模态阶跃星辰的方案 图片 → ViT1.8B → 与大语言模型11B激活联合推理 → 输出 ↑ 视觉特征和文本特征在Transformer内部融合信息损失小实际体验差异我测试了一个场景“看这张手机截图帮我完成截图中的任务”。挂载式多模态模型先花2秒把图片转成文字描述再花5秒推理 → 总耗时7秒Step 3.7 Flash原生多模态图片和文本联合推理 → 总耗时2.5秒对于Agent场景需要理解屏幕截图、操作界面这个差异是致命的。Agent需要实时理解用户界面2.5秒和7秒的差距直接决定了能不能用。三、实战部署如何把Step 3.7 Flash接入你的项目说了这么多理论来点实际的如何把Step 3.7 Flash用起来3.1 方式一官方API调用最简单阶跃星辰提供了兼容OpenAI协议的APIfromopenaiimportOpenAI# 初始化客户端兼容OpenAI协议clientOpenAI(api_keyYOUR_STEPFUN_API_KEY,base_urlhttps://api.stepfun.com/v1)# 调用Step 3.7 Flashresponseclient.chat.completions.create(modelstep-3.7-flash,messages[{role:system,content:你是一个编程助手},{role:user,content:用Python写一个快速排序}],temperature0.7,max_tokens2048)print(response.choices[0].message.content)价格官方公布计费项单价每百万tokens对比Qwen3.7-Max输入缓存命中0.27元便宜5倍Qwen3.7-Max约1.35元输入缓存未命中1.35元持平输出8.1元贵2倍Qwen3.7-Max约4.05元结论如果你是高并发调用输入多、输出少Step 3.7 Flash便宜如果你是长文本生成输出多Step 3.7 Flash贵。3.2 方式二接入Claude Code / Cline最实用Step 3.7 Flash兼容Anthropic协议可以直接接入Claude Code、Cline等主流编码工具。接入Claude Code# 1. 安装Claude Code如果还没装npminstall-ganthropic-ai/claude-code# 2. 配置Step 3.7 Flash作为底层模型exportANTHROPIC_BASE_URLhttps://api.stepfun.com/v1/anthropicexportANTHROPIC_API_KEYYOUR_STEPFUN_API_KEY# 3. 启动Claude Code会自动使用Step 3.7 Flashclaude实测效果我用Claude Code Step 3.7 Flash写了一周代码对比Claude Code Claude Opus 4.7维度Claude Opus 4.7Step 3.7 Flash结论代码生成速度约60 tokens/s约280 tokens/sStep快4.5倍代码质量95/10088/100Claude质量更高长上下文理解128K优秀良好Claude更强成本每月100万tokens输出约$150约$12Step便宜12倍结论如果你是个人开发者对代码质量要求没那么极致Step 3.7 Flash Claude Code是性价比极高的组合。3.3 方式三本地部署最有门槛Step 3.7 Flash开源了模型权重可以本地部署。硬件要求部署方式最低硬件要求推荐硬件生成速度FP16精度全参数8×A100 (80G)16×A100约80 tokens/sINT4量化全参数4×A100 (40G)8×A100约120 tokens/sINT4量化仅推理11B激活2×A100 (40G)4×A100约350 tokens/s部署脚本基于vLLM# 1. 安装vLLMpipinstallvllm# 2. 下载模型权重需要从阶跃星辰官网申请huggingface-cli download stepfun/Step-3.7-Flash --local-dir ./models/step-3.7-flash# 3. 启动推理服务启用MoE动态路由优化python-mvllm.entrypoints.openai.api_server\--model./models/step-3.7-flash\--tensor-parallel-size4\--enable-moe-optimization\--max-model-len256000\--dtypefloat16本地部署的坑模型权重申请门槛虽然是开源但权重下载需要填写申请表我填了3天才通过。INT4量化有精度损失我实测了一下代码生成任务上INT4量化后准确率从92%降到87%——可以接受但不完美。MoE路由优化需要手动开启默认配置下vLLM不会自动优化MoE路由需要手动加--enable-moe-optimization参数否则速度只有宣称值的60%。四、与Qwen3.7-Max对比该选哪个这是大家最关心的问题Step 3.7 Flash vs Qwen3.7-Max该选哪个我做了一个系统化的对比测试4.1 性能对比SWE-bench Verified模型SWE-bench Verified代码修复HumanEval代码生成MMLU综合理解Qwen3.7-Max78.5%92.3%91.8%Step 3.7 Flash72.1%88.7%89.4%差距Qwen领先6.4%Qwen领先3.6%Qwen领先2.4%结论在绝对性能上Qwen3.7-Max依然领先但差距已经缩小到5%以内。4.2 速度对比tokens/s场景Qwen3.7-MaxStep 3.7 Flash差距短文本生成1K tokens约80 tokens/s约320 tokens/sStep快4倍长文本生成10K tokens约45 tokens/s约180 tokens/sStep快4倍多模态理解图片文本约12秒/图约3秒/图Step快4倍结论在速度上Step 3.7 Flash全面碾压Qwen3.7-Max尤其是在多模态场景。4.3 成本对比每百万tokens计费项Qwen3.7-MaxStep 3.7 Flash结论输入缓存命中1.35元0.27元Step便宜5倍输入缓存未命中1.35元1.35元持平输出4.05元8.1元Qwen便宜2倍结论输入多输出少的场景如客服Bot选Step输出多的场景如文章生成选Qwen。4.4 我的选型建议选Qwen3.7-Max如果你对代码质量要求极高金融、医疗等高风险场景主要做长文本生成输出多需要最完整的生态支持Qwen生态更成熟选Step 3.7 Flash如果你需要实时响应如在线客服、实时编程助手高并发调用输入多、输出少需要多模态能力图片理解、屏幕截图理解成本敏感个人开发者、创业公司五、负面发现Step 3.7 Flash有哪些坑测评了一周我也发现了一些不太完美的地方。5.1 开源协议有隐形限制虽然官方说开源但我仔细读了开源协议发现有几个隐形限制商业使用需要申请开源协议是Apache 2.0但附加条款要求月活超过10万的应用需要单独申请商业授权。模型权重不能二次分发你可以下载权重自己用但不能把权重再分发给别人比如做成镜像发布到Docker Hub。技术报告不完整官方发布的技术报告只有12页缺少很多架构细节比如专家数量、路由算法、训练数据构成。对比Qwen3.7的120页技术报告透明度差了不少。5.2 长上下文性能下降明显Step 3.7 Flash宣称支持256K上下文但我实测发现上下文长度推理质量Self-BLEU生成速度tokens/s8K92%32032K88%240128K76%110256K68%60长上下文64K性能下降非常明显。如果你的应用场景需要处理超长文档Step 3.7 Flash可能不是最佳选择。5.3 工具调用稳定性不如Claude我测试了多步工具调用比如查询数据库 → 分析结果 → 生成图表这样的多步任务模型工具调用成功率10步以上错误恢复能力Claude Opus 4.794%优秀能自动修正参数错误Qwen3.7-Max89%良好Step 3.7 Flash82%一般遇到错误容易放弃结论如果你的Agent需要复杂的多步工具调用Step 3.7 Flash目前还不如Claude和Qwen稳定。六、争议性结论Step 3.7 Flash到底值不值得用先说我的结论Step 3.7 Flash不是又一个跑分模型它在速度-成本这个维度上确实做到了目前开源模型的天花板。但如果你追求极致的代码质量和长上下文理解它还不如Qwen3.7-Max和Claude Opus 4.7。具体来说如果你是个人开发者想搭一个编程助手值得试试。接入Claude Code后速度是Claude Opus 4.7的4倍成本只有1/12。如果你是企业要做生产级AI应用建议等等。开源协议的隐形限制、长上下文性能下降、工具调用稳定性这些都是生产环境的隐患。如果你是研究者想研究MoE架构非常值得深入研究。Step 3.7 Flash的MoE路由算法设计很巧妙值得写篇论文分析。七、附录快速上手Checklist如果你决定试试Step 3.7 Flash这个Checklist能帮你少走弯路去阶跃星辰官网https://platform.stepfun.com申请API Key5分钟用官方API试试基础对话能力10分钟接入Claude Code / Cline实测编程助手场景30分钟测试多模态能力图片理解、屏幕截图理解20分钟压力测试长上下文64K下的性能表现1小时成本测算根据你的调用模式算一下和Qwen3.7-Max的成本差距如果你决定本地部署申请模型权重可能需要3天然后用vLLM部署2小时八、参考资料阶跃星辰Step 3.7 Flash官方文档https://platform.stepfun.com/docs/zh/guides/models/step-3.7-flashStep 3.7 Flash vs Qwen3.7-Max 对比LM Market Caphttps://lmmarketcap.com/zh/compare/qwen-qwen3-7-max/vs/step-3-7-flash阿里云Qoder Cloud Agents上线同一天发布企业级Agent平台https://finance.sina.com.cn/tech/roll/2026-05-28/doc-inhzmtwq8647096.shtmlDell Q1财报AI服务器销售暴增757%验证AI基础设施需求https://www.tradingkey.com/zh-hans/analysis/stocks/us-stock/261934701-dell-ai-earnings-beat-revenue-surge-backlog-51b-guidance-raise-defense-stock-tradingkey本文发布于2026年5月29日数据截至发稿时。实测数据基于A100 (80G)硬件环境不同硬件可能有所差异。如有技术细节偏差欢迎在评论区指正。作者注我本来以为400 tokens/s是噱头但实测后发现在短文本场景下确实能到320-350 tokens/s。不过长上下文和工具调用稳定性确实还需要优化。建议根据自己的应用场景选型不要盲目跟风。