超节点文章2：从 Scale-Out 到 Scale-Up：大模型训练为什么需要新的算力组织方式？

发布时间：2026/5/19 23:52:57

目录一、传统数据中心为什么偏向 Scale-Out二、大模型训练为什么让通信变成核心问题三、Scale-Out 的边界在哪里四、Scale-Up 的本质是什么五、HBD 高带宽域超节点里的关键边界六、Scale-Up 和 Scale-Out 不是二选一七、为什么两者会走向融合八、不同拓扑背后的取舍九、超节点是在重新定义“节点”十、总结本文基于以下三份报告进行汇总、解释和二次整理华为《超节点发展报告中兴《超节点技术白皮书H3C《超节点技术白皮书》上一篇文章里我们把超节点理解为一种新的 AI 算力组织方式它不是简单把更多 GPU/NPU 堆在一起而是通过高速互联、统一内存编址、资源池化和软硬件协同让更多加速芯片像一个整体一样协同工作。这篇文章继续往下拆为什么传统数据中心常用的横向扩展方式也就是Scale-Out在大模型训练里开始显得不够用了为什么行业会越来越重视Scale-Up以及超节点到底是在重新划分什么边界一、传统数据中心为什么偏向 Scale-Out在很长一段时间里数据中心的主流扩展方式都是横向扩展。一台服务器不够就加更多服务器一个机柜不够就加更多机柜一个集群不够就继续扩大集群规模。这种方式的好处很明显架构通用适合大多数互联网和云计算业务。服务器可以标准化采购、部署和替换。扩容方式直接容量不够就增加节点。故障隔离相对清楚单台服务器坏了可以从集群里摘掉。这就是Scale-Out的基本逻辑。对于 Web 服务、微服务、离线批处理、通用存储、传统大数据平台来说这套逻辑非常有效。因为很多任务本身就是松耦合的节点之间不需要每一步都高速同步。但大模型训练不一样。大模型训练不是把很多独立任务分给很多机器这么简单。一个模型往往会被切成很多份分布在多张卡、多台服务器上同时计算。每一步训练中各个计算单元都可能需要交换参数、梯度、激活值或者专家路由结果。也就是说大模型训练对集群的要求不是“能不能横向堆大”而是“堆大之后还能不能高效协同”。二、大模型训练为什么让通信变成核心问题要理解这个变化先看大模型训练里常见的几类并行方式。并行方式主要作用对通信的影响数据并行多份模型处理不同数据再同步梯度需要梯度同步常见 All-Reduce张量并行把单层矩阵计算切到多张卡上通信频繁对时延和带宽敏感流水线并行把模型不同层放到不同设备上需要跨阶段传递激活值专家并行MoE 模型中把不同专家放到不同设备上会产生大量 All-to-All序列并行按序列维度拆分长上下文计算长上下文下通信压力上升其中张量并行和专家并行特别容易触发通信瓶颈。张量并行要求多张卡一起完成一个层内计算。它不是训练结束后同步一次而是在模型前向、反向过程中反复通信。专家并行常见于MoE模型。每个 token 会被路由到不同专家专家分布在不同设备上就会产生大量分发和聚合通信。专家越多并发越高通信越重。华为《超节点发展报告》提到随着模型参数和集群规模继续扩大传统服务器集群会面对通信墙、功耗散热墙和复杂度墙。通信墙是最直接的一堵墙集群中卡越多通信路径越复杂等待同步的时间就越容易吞掉算力收益。H3C《超节点技术白皮书》也提到传统“1 机 8 卡”架构中机内互联和机间互联存在明显断层。机内 GPU 可以通过高速互联通信但跨服务器后往往依赖 RDMA 网络。集群规模越大多级交换、拥塞和长尾时延越难忽略。所以大模型训练并不是简单的“卡越多越快”。如果通信跟不上更多卡只会带来更多等待。三、Scale-Out 的边界在哪里Scale-Out的问题不是不能扩展而是扩展到大模型训练场景后效率会受到通信和调度的限制。可以从三个角度理解。第一通信路径变长。单机内部通信路径短带宽高时延低。跨服务器后数据要经过网卡、交换机、协议栈和多级网络。大规模集群里一次同步可能跨越多个网络层级。第二通信模式更复杂。传统云计算业务里很多节点之间是请求-响应式通信或者批处理式数据交换。大模型训练里的集合通信更密集All-Reduce、All-to-All、Broadcast、Reduce-Scatter 都会频繁出现。第三故障和抖动更容易放大。当任务分布在成千上万张卡上一条链路抖动、一个光模块异常、一台交换机拥塞都可能影响整个训练任务的步长。长周期训练里这些小概率事件会变成常态。这也是为什么华为报告会强调 RAS 和自动化运维。到了万级处理器规模系统能力不只是性能问题也是稳定性问题。四、Scale-Up 的本质是什么如果说Scale-Out是“向外扩”那么Scale-Up就是“向内聚”。它的目标不是把更多服务器松散连起来而是把更多加速芯片组织进一个更紧密的高性能计算单元里。在超节点语境下Scale-Up的核心目标包括扩大高带宽通信范围。降低高频通信路径长度。减少跨服务器通信带来的协议和转发开销。支持更直接的内存访问方式。让更多 GPU/NPU 在逻辑上表现得更像一个整体。中兴《超节点技术白皮书》把超节点定义为通过高速互联协议和专用交换芯片构建的高带宽域也就是HBD。这个定义很关键因为它点出了超节点的核心不是“机柜外观”而是“高带宽域”。换句话说超节点首先要回答的问题是哪些计算单元应该被放进同一个高速协同域里对于大模型来说答案通常是那些需要频繁交换数据、对通信极其敏感的计算单元。例如张量并行域尽量放在高带宽域里。专家并行通信尽量减少跨慢速网络。KV Cache 传输尽量走更短路径。对延迟敏感的推理阶段尽量靠近高带宽内存和互联。这就是 Scale-Up 的价值。它不是取代所有网络而是把最敏感、最频繁、最影响效率的通信放进更快的域里。五、HBD 高带宽域超节点里的关键边界HBD是 High-Bandwidth Domain也就是高带宽域。在普通集群里我们常把服务器作为基本计算边界。一台服务器内部是一组高速互联的 GPU服务器之间通过网络互联。超节点则试图把这个边界扩大。原来“高速互联”的范围可能只在单机内部现在希望扩展到整机柜甚至跨机柜。这样更多 GPU/NPU 可以处在同一个高带宽、低时延通信域里。中兴报告中提到超节点内任意 GPU 间的互联带宽原则上应明显高于机间互联有助于降低通信开销、提高 MFU。这个判断背后的逻辑很直接如果并行计算的核心通信都落在低速网络上算力利用率就很难上去。H3C 报告在部署实践中也把网络分成三类网络类型作用典型承载流量Scale-Up 网络构建超节点内部高带宽域张量并行、专家并行Scale-Out 网络跨 HBD 域扩展集群数据并行、流水线并行、全局梯度同步Frontend 网络业务、管理和存储访问数据加载、Checkpoint、控制面这个划分非常适合理解超节点不是所有流量都需要走同一种网络不同类型的通信需要不同的基础设施承载。下面这张图展示了超节点架构中 Scale-Up 和 Scale-Out 融合设计的思路。图源中兴《超节点技术白皮书》第 25 页图 2-3。六、Scale-Up 和 Scale-Out 不是二选一很多人第一次接触超节点容易误以为 Scale-Up 会取代 Scale-Out。其实不是。这两者解决的是不同层次的问题。Scale-Up负责把一个算力单元内部做得更紧、更快、更像一个整体。它适合承载张量并行、专家并行、细粒度同步、远端内存访问等强耦合通信。Scale-Out负责把多个算力单元继续扩展成更大集群。它适合承载数据并行、流水线并行、跨超节点同步、存储访问和更大规模调度。用一个不太严谨但好理解的类比Scale-Up 像是在一个房间里安排高频协作团队大家面对面沟通。Scale-Out 像是把多个团队、多个楼层、多个园区连成组织体系。大模型训练需要两者同时存在。如果只有 Scale-Out通信路径太长高频协作效率低。如果只有 Scale-Up单个高带宽域也有物理、功耗、散热、成本上限。所以更现实的方向是在一个合理大小的高带宽域内做 Scale-Up再通过 Scale-Out 把多个高带宽域组织成更大集群。七、为什么两者会走向融合中兴报告提出一个重要趋势在 Matrix 集群超节点中Scale-Up和Scale-Out的边界会逐渐模糊。原因很简单模型越来越大高频通信的范围也可能超过单机柜。当张量并行、专家并行需要跨越多个单体超节点时如果仍然把 Scale-Up 和 Scale-Out 完全分成两套网络系统会面临几个问题网络重复建设成本上升。数据跨域时需要协议转换增加复杂度。资源调度需要同时理解两套网络运维难度变大。模型并行策略受到物理边界限制。因此行业开始探索 Scale-Up/Scale-Out 融合网络。H3C 报告在未来趋势中也提到协议融合正在成为超节点技术创新方向。例如一些协议尝试复用以太网生态把 Scale-Up 事务封装到更通用的网络基础设施之上以降低部署成本和迁移成本。这并不意味着所有网络都会完全统一而是意味着超节点的内部高速互联和外部集群互联会越来越协同。八、不同拓扑背后的取舍当我们谈 Scale-Up 和 Scale-Out 时背后一定会涉及拓扑。常见拓扑包括CLOSFat-Tree3D TorusDragonFlyMesh厂商自研拓扑这些拓扑没有绝对好坏核心是取舍。例如CLOS/Fat-Tree 更强调无阻塞或低收敛比适合大规模数据中心网络但交换层级和光模块数量可能带来成本压力。3D Torus 可以减少部分全局互联成本但对通信模式和业务调度更挑剔。DragonFly 通过组内高带宽和组间连接降低全局链路数量但也需要更复杂的路由和拥塞控制。H3C 报告中整理了多种典型拓扑包括 GB200 NVL576、Google TPU v4、DragonFly、Huawei UB-Mesh 等。这些图的共同价值在于说明一件事超节点不是单一标准答案而是一组围绕带宽、时延、成本、可靠性、部署复杂度做出的系统设计选择。图源H3C《超节点技术白皮书》第 44 页图 19, GB200 NVL576 组网拓扑示意图。图源H3C《超节点技术白皮书》第 49 页图 26, Huawei UB-Mesh 架构组网拓扑示意图。九、超节点是在重新定义“节点”传统数据中心里“节点”通常指一台服务器。但在 AI 基础设施里这个边界正在变化。如果一个大模型的高频通信已经跨出了单台服务器而系统又希望这些通信仍然保持接近本地互联的效率那么“节点”的边界就不能再简单停留在服务器级。超节点的出现本质上就是把“节点”从服务器级扩大到机柜级甚至更大的高带宽域级。这也是为什么华为报告会说超节点将成为 AI 时代的核心计算单元。这里的“核心计算单元”不是指它一定替代所有服务器而是指在大模型训练和推理中系统调度、资源组织、故障管理和性能优化的基本边界正在从单台服务器上移。以前我们问这个任务需要多少台服务器现在更应该问这个任务需要多大的高带宽域需要多少个超节点超节点之间如何连接这个问题的变化就是 AI 基础设施范式变化的核心。十、总结从Scale-Out到Scale-Up不是一句架构口号而是大模型训练把基础设施逼到新阶段之后的自然结果。传统 Scale-Out 擅长把系统做大但大模型训练要求的不只是规模还有通信效率、内存访问效率、资源调度效率和长周期稳定性。Scale-Up 的价值在于把高频、强耦合、低时延敏感的通信尽可能放进高带宽域里让更多 GPU/NPU 像一个整体一样协同。但 Scale-Up 也不是万能的。它有功耗、散热、成本和物理扩展上限。因此未来更现实的方向不是二选一而是用 Scale-Up 构建高带宽域。用 Scale-Out 连接多个高带宽域。在更大规模上探索两者融合。超节点正是在这个方向上出现的。它不是传统 GPU 集群的简单放大而是 AI 时代对“节点”“网络”和“算力边界”的重新定义。下一篇文章我们会继续深入超节点内部拆解它背后的核心技术高速互联、统一内存编址、Load/Store 语义以及在网计算。

现在不看就晚了：Perplexity即将下线v2.1文档解析引擎——迁移前必须完成的4项兼容性校验与3个替代方案评估

更多请点击： https://kaifayun.com 第一章：Perplexity技术文档查询 Perplexity 是一种衡量语言模型预测能力的核心指标，定义为交叉熵损失的指数形式，常用于评估模型对测试语料的建模质量。在技术文档查询场景中，低 Pe…

2026/5/19 23:52:37 阅读更多

Perplexity考试搜索避坑清单，12个被官方刻意隐藏的关键字段与3种反爬识别绕过策略

更多请点击： https://intelliparadigm.com 第一章：Perplexity考试信息搜索 Perplexity 是一项面向AI系统能力评估的专业性考试，其核心目标是衡量模型在复杂推理、多跳检索、上下文理解及事实一致性等方面的综合表现。考试内容不公开题库&…

2026/5/19 23:52:37 阅读更多

Claude Code用户如何配置Taotoken解决账号封禁与token不足困扰

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Claude Code用户如何配置Taotoken解决账号封禁与token不足困扰应用场景类，针对频繁使用Claude Code的编程助手用户&am…

2026/5/19 23:52:16 阅读更多

Modbus通信老是丢包？可能是你的CRC16校验没搞对！一个真实工控故障排查实录

Modbus通信丢包故障排查：从CRC16校验错误到硬件加速优化的全链路实践凌晨三点的工业现场，PLC与传感器之间的数据突然开始随机丢失。作为值班工程师，我打开串口调试助手，看到Modbus RTU帧间隔出现异常响应——有的请求得到正确回复…

2026/5/20 5:38:07 阅读更多

告别枯燥理论！用Quartus II和LPM_ROM手把手教你做个会‘唱歌’的FPGA正弦波发生器

用FPGA演奏音乐：基于Quartus II的正弦波合成器实战指南当数字电路遇上音乐创作，会擦出怎样的火花？今天我们将打破传统FPGA教学的刻板印象，带你用Verilog和LPM_ROM制作一个能"唱歌"的正弦波合成器。这个项目不仅能让你理…

2026/5/20 5:37:47 阅读更多

深度复盘：我是如何用TypeScript全栈构建一个高性能 MVT地图服务的

写在前面： 在 WebGIS 领域，"轻量级"往往意味着功能的阉割。但当我决定手写 light-mvt-server 时，我的目标很明确：在不牺牲性能的前提下，把 GIS 开发的门槛降到最低。这不是一篇简单的功能介绍，而…

2026/5/20 5:37:47 阅读更多

影刀RPA浏览器自动化系统：多账号环境隔离、Python并发调度与跨境店群运营基建实战

影刀RPA浏览器自动化系统：多账号环境隔离、Python并发调度与跨境店群运营基建实战在前不久科技与创投圈内引发热烈讨论的产业观察中，江苏昆山首个固态电池材料独角兽企业冲击 IPO 的消息，让无数人将目光重新聚焦于底层技术的硬核突破。这支…

2026/5/20 5:35:26 阅读更多

JetBrains IDE试用期重置插件：简单三步恢复30天完整功能

JetBrains IDE试用期重置插件：简单三步恢复30天完整功能【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 还在为JetBrains IDE试用期到期而烦恼吗？ide-eval-resetter插件是你需要的终极解决…

2026/5/20 5:35:06 阅读更多

告别‘天书’！手把手教你用vdex2dex、odex2smali等工具，把Android应用的vdex/odex/cdex转成可读的dex文件

Android逆向工程实战：从vdex/odex/cdex到可读dex的完整指南当你兴致勃勃地打开一个APK文件准备分析时，却发现里面只有vdex、odex或cdex文件，用JADX直接打开全是乱码——这种挫败感每个逆向工程师都经历过。本文将带你一步步破解这些"天…

2026/5/20 5:32:25 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章