智谱ZCube组网架构革新:不动硬件提升集群推理吞吐15%,重塑AI算力格局 【导语过去两年行业在算力军备竞赛中多靠买GPU、建集群提升算力。近日智谱公开ZCube组网架构不动硬件提升推理吞吐同时OpenAI等发布MRC协议行业正从“堆硬件”向“挖效率”转向影响着产业链。】ZCube组网架构不动硬件提升集群效率智谱首次公开在生产集群中验证过的ZCube组网架构在GPU、服务器、应用代码都不变的情况下集群推理吞吐直接提升了15%TTFT首Token响应时间P99尾延迟下降了40.6%。这些数据是在真实生产流量中得出而非实验室仿真推演。对于服务上百万开发者的大模型API平台这意味着同一套硬件基础设施每秒能多扛15%的并发请求流量洪峰下排队等待时间大幅缩短P99尾延迟的40%降幅也减少了终端用户的“卡顿感”。此外ZCube架构所需的交换机和光模块数量比原有方案少了三分之一实现了对存量算力资产的低成本效率重估。ZCube与MRC不同路径解决网络瓶颈当集群里数千甚至数万张GPU同时处理推理请求时GPU之间互联网络的效率上限决定了GPU能发挥的真实算力。ZCube从拓扑设计上重新规划“路网”从根源上消除拥塞。几乎同一时间OpenAI联合五大巨头发布了MRC多路径可靠连接网络协议这是面向超大规模AI集群的开放网络协议已部署在OpenAI所有最大规模超算集群中。MRC在协议层优化“交通规则”与ZCube在架构层重构“路网”一软一硬殊途同归都指向网络是制约GPU集群整体效率的核心变量。行业转向从“堆硬件”到“挖效率”不仅智谱和OpenAI行业内从硬件侧、芯片创业公司到模型架构本身都在探索“不堆硬件、从基础设施和系统架构里挖效率”。如NVIDIA最新架构、Google第七代TPU、Groq的LPU、Cerebras的芯片、通义千问的Qwen3 - Next、DeepSeek的稀疏注意力技术等都在现有算力存量和有限新增投入中寻找更大产出倍数。这场转向对上游供应链产生实质影响AI集群采购逻辑将发生结构性调整对高端交换机需求从“更多层级”转向“更少层级、更大端口密度”光模块加速向800G及以上速率集中。市场数据也验证了这一趋势2025 - 2026年800G和1.6T光模块出货量将大幅增长。ZCube的两层含义技术与商业价值凸显北京计算机学会AI专委会秘书长张有鱼表示智谱的ZCube实践在技术层面用真实生产数据验证了在千卡乃至万卡集群中网络架构可成为独立的效率杠杆且边际改造成本极低比单纯采购芯片更具性价比。在商业层面对于手握大量GPU存量的平台型公司谁能从既有资产中榨出更多Token产出就能在API价格持续下探的市场里拉大成本优势智谱的成果对应着可观的运营成本优化。编辑观点智谱ZCube组网架构及行业内的一系列探索展现了从“堆硬件”到“挖效率”的积极转向有望缓解算力紧张重塑产业链未来在技术和商业上的潜力值得期待。