超节点文章2:从 Scale-Out 到 Scale-Up:大模型训练为什么需要新的算力组织方式? 目录一、传统数据中心为什么偏向 Scale-Out二、大模型训练为什么让通信变成核心问题三、Scale-Out 的边界在哪里四、Scale-Up 的本质是什么五、HBD 高带宽域超节点里的关键边界六、Scale-Up 和 Scale-Out 不是二选一七、为什么两者会走向融合八、不同拓扑背后的取舍九、超节点是在重新定义“节点”十、总结本文基于以下三份报告进行汇总、解释和二次整理华为《超节点发展报告中兴《超节点技术白皮书H3C《超节点技术白皮书》上一篇文章里我们把超节点理解为一种新的 AI 算力组织方式它不是简单把更多 GPU/NPU 堆在一起而是通过高速互联、统一内存编址、资源池化和软硬件协同让更多加速芯片像一个整体一样协同工作。这篇文章继续往下拆为什么传统数据中心常用的横向扩展方式也就是Scale-Out在大模型训练里开始显得不够用了为什么行业会越来越重视Scale-Up以及超节点到底是在重新划分什么边界一、传统数据中心为什么偏向 Scale-Out在很长一段时间里数据中心的主流扩展方式都是横向扩展。一台服务器不够就加更多服务器一个机柜不够就加更多机柜一个集群不够就继续扩大集群规模。这种方式的好处很明显架构通用适合大多数互联网和云计算业务。服务器可以标准化采购、部署和替换。扩容方式直接容量不够就增加节点。故障隔离相对清楚单台服务器坏了可以从集群里摘掉。这就是Scale-Out的基本逻辑。对于 Web 服务、微服务、离线批处理、通用存储、传统大数据平台来说这套逻辑非常有效。因为很多任务本身就是松耦合的节点之间不需要每一步都高速同步。但大模型训练不一样。大模型训练不是把很多独立任务分给很多机器这么简单。一个模型往往会被切成很多份分布在多张卡、多台服务器上同时计算。每一步训练中各个计算单元都可能需要交换参数、梯度、激活值或者专家路由结果。也就是说大模型训练对集群的要求不是“能不能横向堆大”而是“堆大之后还能不能高效协同”。二、大模型训练为什么让通信变成核心问题要理解这个变化先看大模型训练里常见的几类并行方式。并行方式主要作用对通信的影响数据并行多份模型处理不同数据再同步梯度需要梯度同步常见 All-Reduce张量并行把单层矩阵计算切到多张卡上通信频繁对时延和带宽敏感流水线并行把模型不同层放到不同设备上需要跨阶段传递激活值专家并行MoE 模型中把不同专家放到不同设备上会产生大量 All-to-All序列并行按序列维度拆分长上下文计算长上下文下通信压力上升其中张量并行和专家并行特别容易触发通信瓶颈。张量并行要求多张卡一起完成一个层内计算。它不是训练结束后同步一次而是在模型前向、反向过程中反复通信。专家并行常见于MoE模型。每个 token 会被路由到不同专家专家分布在不同设备上就会产生大量分发和聚合通信。专家越多并发越高通信越重。华为《超节点发展报告》提到随着模型参数和集群规模继续扩大传统服务器集群会面对通信墙、功耗散热墙和复杂度墙。通信墙是最直接的一堵墙集群中卡越多通信路径越复杂等待同步的时间就越容易吞掉算力收益。H3C《超节点技术白皮书》也提到传统“1 机 8 卡”架构中机内互联和机间互联存在明显断层。机内 GPU 可以通过高速互联通信但跨服务器后往往依赖 RDMA 网络。集群规模越大多级交换、拥塞和长尾时延越难忽略。所以大模型训练并不是简单的“卡越多越快”。如果通信跟不上更多卡只会带来更多等待。三、Scale-Out 的边界在哪里Scale-Out的问题不是不能扩展而是扩展到大模型训练场景后效率会受到通信和调度的限制。可以从三个角度理解。第一通信路径变长。单机内部通信路径短带宽高时延低。跨服务器后数据要经过网卡、交换机、协议栈和多级网络。大规模集群里一次同步可能跨越多个网络层级。第二通信模式更复杂。传统云计算业务里很多节点之间是请求-响应式通信或者批处理式数据交换。大模型训练里的集合通信更密集All-Reduce、All-to-All、Broadcast、Reduce-Scatter 都会频繁出现。第三故障和抖动更容易放大。当任务分布在成千上万张卡上一条链路抖动、一个光模块异常、一台交换机拥塞都可能影响整个训练任务的步长。长周期训练里这些小概率事件会变成常态。这也是为什么华为报告会强调 RAS 和自动化运维。到了万级处理器规模系统能力不只是性能问题也是稳定性问题。四、Scale-Up 的本质是什么如果说Scale-Out是“向外扩”那么Scale-Up就是“向内聚”。它的目标不是把更多服务器松散连起来而是把更多加速芯片组织进一个更紧密的高性能计算单元里。在超节点语境下Scale-Up的核心目标包括扩大高带宽通信范围。降低高频通信路径长度。减少跨服务器通信带来的协议和转发开销。支持更直接的内存访问方式。让更多 GPU/NPU 在逻辑上表现得更像一个整体。中兴《超节点技术白皮书》把超节点定义为通过高速互联协议和专用交换芯片构建的高带宽域也就是HBD。这个定义很关键因为它点出了超节点的核心不是“机柜外观”而是“高带宽域”。换句话说超节点首先要回答的问题是哪些计算单元应该被放进同一个高速协同域里对于大模型来说答案通常是那些需要频繁交换数据、对通信极其敏感的计算单元。例如张量并行域尽量放在高带宽域里。专家并行通信尽量减少跨慢速网络。KV Cache 传输尽量走更短路径。对延迟敏感的推理阶段尽量靠近高带宽内存和互联。这就是 Scale-Up 的价值。它不是取代所有网络而是把最敏感、最频繁、最影响效率的通信放进更快的域里。五、HBD 高带宽域超节点里的关键边界HBD是 High-Bandwidth Domain也就是高带宽域。在普通集群里我们常把服务器作为基本计算边界。一台服务器内部是一组高速互联的 GPU服务器之间通过网络互联。超节点则试图把这个边界扩大。原来“高速互联”的范围可能只在单机内部现在希望扩展到整机柜甚至跨机柜。这样更多 GPU/NPU 可以处在同一个高带宽、低时延通信域里。中兴报告中提到超节点内任意 GPU 间的互联带宽原则上应明显高于机间互联有助于降低通信开销、提高 MFU。这个判断背后的逻辑很直接如果并行计算的核心通信都落在低速网络上算力利用率就很难上去。H3C 报告在部署实践中也把网络分成三类网络类型作用典型承载流量Scale-Up 网络构建超节点内部高带宽域张量并行、专家并行Scale-Out 网络跨 HBD 域扩展集群数据并行、流水线并行、全局梯度同步Frontend 网络业务、管理和存储访问数据加载、Checkpoint、控制面这个划分非常适合理解超节点不是所有流量都需要走同一种网络不同类型的通信需要不同的基础设施承载。下面这张图展示了超节点架构中 Scale-Up 和 Scale-Out 融合设计的思路。图源中兴《超节点技术白皮书》第 25 页图 2-3。六、Scale-Up 和 Scale-Out 不是二选一很多人第一次接触超节点容易误以为 Scale-Up 会取代 Scale-Out。其实不是。这两者解决的是不同层次的问题。Scale-Up负责把一个算力单元内部做得更紧、更快、更像一个整体。它适合承载张量并行、专家并行、细粒度同步、远端内存访问等强耦合通信。Scale-Out负责把多个算力单元继续扩展成更大集群。它适合承载数据并行、流水线并行、跨超节点同步、存储访问和更大规模调度。用一个不太严谨但好理解的类比Scale-Up 像是在一个房间里安排高频协作团队大家面对面沟通。Scale-Out 像是把多个团队、多个楼层、多个园区连成组织体系。大模型训练需要两者同时存在。如果只有 Scale-Out通信路径太长高频协作效率低。如果只有 Scale-Up单个高带宽域也有物理、功耗、散热、成本上限。所以更现实的方向是在一个合理大小的高带宽域内做 Scale-Up再通过 Scale-Out 把多个高带宽域组织成更大集群。七、为什么两者会走向融合中兴报告提出一个重要趋势在 Matrix 集群超节点中Scale-Up和Scale-Out的边界会逐渐模糊。原因很简单模型越来越大高频通信的范围也可能超过单机柜。当张量并行、专家并行需要跨越多个单体超节点时如果仍然把 Scale-Up 和 Scale-Out 完全分成两套网络系统会面临几个问题网络重复建设成本上升。数据跨域时需要协议转换增加复杂度。资源调度需要同时理解两套网络运维难度变大。模型并行策略受到物理边界限制。因此行业开始探索 Scale-Up/Scale-Out 融合网络。H3C 报告在未来趋势中也提到协议融合正在成为超节点技术创新方向。例如一些协议尝试复用以太网生态把 Scale-Up 事务封装到更通用的网络基础设施之上以降低部署成本和迁移成本。这并不意味着所有网络都会完全统一而是意味着超节点的内部高速互联和外部集群互联会越来越协同。八、不同拓扑背后的取舍当我们谈 Scale-Up 和 Scale-Out 时背后一定会涉及拓扑。常见拓扑包括CLOSFat-Tree3D TorusDragonFlyMesh厂商自研拓扑这些拓扑没有绝对好坏核心是取舍。例如CLOS/Fat-Tree 更强调无阻塞或低收敛比适合大规模数据中心网络但交换层级和光模块数量可能带来成本压力。3D Torus 可以减少部分全局互联成本但对通信模式和业务调度更挑剔。DragonFly 通过组内高带宽和组间连接降低全局链路数量但也需要更复杂的路由和拥塞控制。H3C 报告中整理了多种典型拓扑包括 GB200 NVL576、Google TPU v4、DragonFly、Huawei UB-Mesh 等。这些图的共同价值在于说明一件事超节点不是单一标准答案而是一组围绕带宽、时延、成本、可靠性、部署复杂度做出的系统设计选择。图源H3C《超节点技术白皮书》第 44 页图 19, GB200 NVL576 组网拓扑示意图。图源H3C《超节点技术白皮书》第 49 页图 26, Huawei UB-Mesh 架构组网拓扑示意图。九、超节点是在重新定义“节点”传统数据中心里“节点”通常指一台服务器。但在 AI 基础设施里这个边界正在变化。如果一个大模型的高频通信已经跨出了单台服务器而系统又希望这些通信仍然保持接近本地互联的效率那么“节点”的边界就不能再简单停留在服务器级。超节点的出现本质上就是把“节点”从服务器级扩大到机柜级甚至更大的高带宽域级。这也是为什么华为报告会说超节点将成为 AI 时代的核心计算单元。这里的“核心计算单元”不是指它一定替代所有服务器而是指在大模型训练和推理中系统调度、资源组织、故障管理和性能优化的基本边界正在从单台服务器上移。以前我们问这个任务需要多少台服务器现在更应该问这个任务需要多大的高带宽域需要多少个超节点超节点之间如何连接这个问题的变化就是 AI 基础设施范式变化的核心。十、总结从Scale-Out到Scale-Up不是一句架构口号而是大模型训练把基础设施逼到新阶段之后的自然结果。传统 Scale-Out 擅长把系统做大但大模型训练要求的不只是规模还有通信效率、内存访问效率、资源调度效率和长周期稳定性。Scale-Up 的价值在于把高频、强耦合、低时延敏感的通信尽可能放进高带宽域里让更多 GPU/NPU 像一个整体一样协同。但 Scale-Up 也不是万能的。它有功耗、散热、成本和物理扩展上限。因此未来更现实的方向不是二选一而是用 Scale-Up 构建高带宽域。用 Scale-Out 连接多个高带宽域。在更大规模上探索两者融合。超节点正是在这个方向上出现的。它不是传统 GPU 集群的简单放大而是 AI 时代对“节点”“网络”和“算力边界”的重新定义。下一篇文章我们会继续深入超节点内部拆解它背后的核心技术高速互联、统一内存编址、Load/Store 语义以及在网计算。