AI Infra人工智能基础设施研究的核心在于回答一个根本性问题如何构建一个高效、可靠且可扩展的系统来支撑AI算法从海量数据中训练并进行快速、低成本的推理。1. 计算如何突破算力与通信的瓶颈当单个GPU无法容纳整个模型时计算问题就变成了如何高效调度成千上万张卡协同工作的问题。并行策略的融合优化单一的数据并行已不敷使用。当前研究聚焦于多维混合并行即综合运用数据并行、张量并行将单层计算拆分到多卡、流水线并行将不同网络层分配到多卡和专家并行针对MoE模型。挑战在于如何设计调度算法最大限度地减少因同步和通信导致的GPU闲置即气泡。通信开销的掩盖优化在混合专家模型MoE等架构中跨节点通信成为主要瓶颈。一个代表性的优化是DeepSeek提出的DualPipe技术它是一种双向流水线并行算法通过在计算中巧妙地穿插通信任务有效掩盖了通信延迟。2. 存储与数据如何喂饱饥饿的GPUGPU以惊人的速度处理数据而数据加载和处理的任何延迟都会导致昂贵的GPU算力闲置业界称之为静默的空转。存算分离与性能平衡为了应对EB级的数据洪流现代架构正从传统的计算与存储紧耦合转向存算分离。这使得计算和存储资源可以独立扩展。但代价是带来了网络延迟因此需要在性能与灵活性之间取得平衡。消除I/O瓶颈如何构建高性能的数据管道确保数据能喂饱GPU是核心挑战。这涉及到并行文件系统、智能数据预取算法以及GPU直接访问存储如GPUDirect Storage等硬核技术目的是将数据等待时间降到最低。3. 网络如何构建AI的神经网络在分布式训练中成千上万个GPU需要像一台巨型计算机一样协同工作这极大地依赖高速、低延迟的网络。构建无损、高吞吐的网络传统TCP/IP网络的开销过大无法满足需求。因此远程直接内存访问RDMA和InfiniBand等高速网络技术成为AI集群的标配。研究重点在于如何设计网络拓扑和路由策略以适应AI训练中全局通信All-to-All等特定流量模式。4. 推理如何应对深度思考带来的挑战新一代的深度思考模型如OpenAI o1, DeepSeek R1通过长思维链进行推理这对推理基础设施提出了全新挑战。应对长序列的内存爆炸长输入和长输出会导致键值缓存KV Cache激增严重消耗GPU显存。传统的以计算换存储的策略不再适用业界开始探索 以存储换算力的新架构。异构计算与任务调度一个典型的创新是Mooncake架构它将推理任务拆分为预填充PreFill计算密集型和解码Decoding内存密集型两个阶段并分别调度到不同类型的计算资源上处理。同时针对大模型的投机式推理等优化技术也旨在降低生成延迟。系统工程如何让AI可靠落地将模型部署到生产环境需要一整套护航系统确保其稳定、安全、可控。这是AI从玩具走向工具的关键一步。高可用架构大模型API并非100%可靠。企业级架构需具备多模型降级与熔断机制。当主模型服务超时或出错时系统能自动无缝切换到备用模型或更简单的规则引擎确保业务不中断。安全合规护城河在数据输入模型前系统需自动进行数据脱敏如抹除身份证号在模型输出结果后要进行内容安全审查防止敏感信息泄露或违规内容生成。可观测性必须建立全链路监控体系追踪一个请求从入口、模型推理到结果返回的完整路径将模型的黑盒行为量化为TTFT首字延迟、QPS、GPU利用率等具体指标以便进行运维和优化。AI Infra的研究正从支撑模型转向驾驭模型。其核心议题是如何在规模、性能、成本和可靠性之间找到最优解。这是一个横跨计算、存储、网络、系统工程等多个领域的综合性挑战。MRC: OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom向业界发布了MRCMultipathReliableConnection协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议并已部署在其最大规模的超算集群中。不同的是MRC在协议层发力通过多路径并发传输对抗网络拥塞ZCube则在架构层动刀从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”后者重新规划了整张“路网”。ZCube:智谱联合驭驯网络与清华大学在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中在保持GPU算力、软件栈与应用不变的前提下ZCube节省了33%的交换机与光模块成本同时将GPU平均推理吞吐量提升了15%TTFTP99降低了40.6%。这组数字意味着什么同样的硬件投入智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言这直接对应更高的并发上限、更低的排队延迟以及在流量峰值下更稳定的用户体验。
【LLM基础研究】核心六:AIInfra
发布时间:2026/7/1 0:34:17
AI Infra人工智能基础设施研究的核心在于回答一个根本性问题如何构建一个高效、可靠且可扩展的系统来支撑AI算法从海量数据中训练并进行快速、低成本的推理。1. 计算如何突破算力与通信的瓶颈当单个GPU无法容纳整个模型时计算问题就变成了如何高效调度成千上万张卡协同工作的问题。并行策略的融合优化单一的数据并行已不敷使用。当前研究聚焦于多维混合并行即综合运用数据并行、张量并行将单层计算拆分到多卡、流水线并行将不同网络层分配到多卡和专家并行针对MoE模型。挑战在于如何设计调度算法最大限度地减少因同步和通信导致的GPU闲置即气泡。通信开销的掩盖优化在混合专家模型MoE等架构中跨节点通信成为主要瓶颈。一个代表性的优化是DeepSeek提出的DualPipe技术它是一种双向流水线并行算法通过在计算中巧妙地穿插通信任务有效掩盖了通信延迟。2. 存储与数据如何喂饱饥饿的GPUGPU以惊人的速度处理数据而数据加载和处理的任何延迟都会导致昂贵的GPU算力闲置业界称之为静默的空转。存算分离与性能平衡为了应对EB级的数据洪流现代架构正从传统的计算与存储紧耦合转向存算分离。这使得计算和存储资源可以独立扩展。但代价是带来了网络延迟因此需要在性能与灵活性之间取得平衡。消除I/O瓶颈如何构建高性能的数据管道确保数据能喂饱GPU是核心挑战。这涉及到并行文件系统、智能数据预取算法以及GPU直接访问存储如GPUDirect Storage等硬核技术目的是将数据等待时间降到最低。3. 网络如何构建AI的神经网络在分布式训练中成千上万个GPU需要像一台巨型计算机一样协同工作这极大地依赖高速、低延迟的网络。构建无损、高吞吐的网络传统TCP/IP网络的开销过大无法满足需求。因此远程直接内存访问RDMA和InfiniBand等高速网络技术成为AI集群的标配。研究重点在于如何设计网络拓扑和路由策略以适应AI训练中全局通信All-to-All等特定流量模式。4. 推理如何应对深度思考带来的挑战新一代的深度思考模型如OpenAI o1, DeepSeek R1通过长思维链进行推理这对推理基础设施提出了全新挑战。应对长序列的内存爆炸长输入和长输出会导致键值缓存KV Cache激增严重消耗GPU显存。传统的以计算换存储的策略不再适用业界开始探索 以存储换算力的新架构。异构计算与任务调度一个典型的创新是Mooncake架构它将推理任务拆分为预填充PreFill计算密集型和解码Decoding内存密集型两个阶段并分别调度到不同类型的计算资源上处理。同时针对大模型的投机式推理等优化技术也旨在降低生成延迟。系统工程如何让AI可靠落地将模型部署到生产环境需要一整套护航系统确保其稳定、安全、可控。这是AI从玩具走向工具的关键一步。高可用架构大模型API并非100%可靠。企业级架构需具备多模型降级与熔断机制。当主模型服务超时或出错时系统能自动无缝切换到备用模型或更简单的规则引擎确保业务不中断。安全合规护城河在数据输入模型前系统需自动进行数据脱敏如抹除身份证号在模型输出结果后要进行内容安全审查防止敏感信息泄露或违规内容生成。可观测性必须建立全链路监控体系追踪一个请求从入口、模型推理到结果返回的完整路径将模型的黑盒行为量化为TTFT首字延迟、QPS、GPU利用率等具体指标以便进行运维和优化。AI Infra的研究正从支撑模型转向驾驭模型。其核心议题是如何在规模、性能、成本和可靠性之间找到最优解。这是一个横跨计算、存储、网络、系统工程等多个领域的综合性挑战。MRC: OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom向业界发布了MRCMultipathReliableConnection协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议并已部署在其最大规模的超算集群中。不同的是MRC在协议层发力通过多路径并发传输对抗网络拥塞ZCube则在架构层动刀从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”后者重新规划了整张“路网”。ZCube:智谱联合驭驯网络与清华大学在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中在保持GPU算力、软件栈与应用不变的前提下ZCube节省了33%的交换机与光模块成本同时将GPU平均推理吞吐量提升了15%TTFTP99降低了40.6%。这组数字意味着什么同样的硬件投入智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言这直接对应更高的并发上限、更低的排队延迟以及在流量峰值下更稳定的用户体验。