并行方式切分对象主要通信为什么需要DPBatchAllReduce每张卡算出的梯度不同需要同步梯度TPWeight权重AllReduce / AllGather / ReduceScatter每张卡只有部分权重或部分输出需要恢复完整计算PPLayerSend / Recv (P2P)下一层在另一张 GPU需要传递激活值和梯度ZeRO-1Optimizer StateAllReduce参数完整只同步梯度ZeRO-2Optimizer GradientReduceScatter AllGather或 AllReduce 的等价实现梯度分片存储需要分发和聚合ZeRO-3 / FSDPParameter Gradient OptimizerAllGather ReduceScatter参数也是分片的每层计算前需要恢复完整参数Sequence ParallelSequenceAllGather ReduceScatterAttention 等算子需要完整 SequenceContext ParallelContextAllGather / AllToAll实现相关长上下文 Attention 需要跨 GPU 的 KVExpert ParallelMoEExpertAllToAllToken 要发送到负责该 Expert 的 GPU
【分布式训练中 各种并行方案 分别用什么通信 为什么?比如DP会用到 ALL reduce】
并行方式切分对象主要通信为什么需要DPBatchAllReduce每张卡算出的梯度不同需要同步梯度TPWeight权重AllReduce / AllGather / ReduceScatter每张卡只有部分权重或部分输出需要恢复完整计算PPLayerSend / Recv (P2P)下一层在另一张 GPU需要传递激活值和梯度ZeRO-1Optimizer StateAllReduce参数完整只同步梯度ZeRO-2Optimizer GradientReduceScatter AllGather或 AllReduce 的等价实现梯度分片存储需要分发和聚合ZeRO-3 / FSDPParameter Gradient OptimizerAllGather ReduceScatter参数也是分片的每层计算前需要恢复完整参数Sequence ParallelSequenceAllGather ReduceScatterAttention 等算子需要完整 SequenceContext ParallelContextAllGather / AllToAll实现相关长上下文 Attention 需要跨 GPU 的 KVExpert ParallelMoEExpertAllToAllToken 要发送到负责该 Expert 的 GPU
相关文章
基于Si4731与MK64FN1M0VDC12的数字化收音机开发实践
1. 项目概述:基于Si4731与MK64FN1M0VDC12的收音机开发最近在整理工作室时翻出一块闲置的MK64FN1M0VDC12开发板,正好手头还有几片Si4731收音芯片,于是决定做个能存储电台频率的数字化收音机。这个组合听起来可能有些小众,但实际用起…
Claude归零层解析:语义保真度校验环的工程消除与落地实践
1. 项目概述:这不是一次普通更新,而是模型能力边界的悄然坍缩 “Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题乍看像一句技术圈的黑色幽默,甚至带点玄学意味。但作为连续跟踪Claude系列模型迭代三年、亲手…
SysDVR:实现Switch游戏画面实时传输到电脑的完整技术方案
SysDVR:实现Switch游戏画面实时传输到电脑的完整技术方案 【免费下载链接】SysDVR Stream switch games to your PC via USB or network 项目地址: https://gitcode.com/gh_mirrors/sy/SysDVR SysDVR是一个开源的Switch系统模块,能够通过USB或网络…
揭秘高效Windows 10系统优化:智能去臃肿软件终极解决方案
揭秘高效Windows 10系统优化:智能去臃肿软件终极解决方案 【免费下载链接】Windows10Debloater Script to remove Windows 10 bloatware. 项目地址: https://gitcode.com/gh_mirrors/wi/Windows10Debloater Windows 10系统自带大量预装应用,这些&…
如何用OpenRGB统一控制所有RGB设备:3步告别多软件混乱
如何用OpenRGB统一控制所有RGB设备:3步告别多软件混乱 【免费下载链接】OpenRGB Open source RGB lighting control that doesnt depend on manufacturer software. Supports Windows, Linux, MacOS. Mirror of https://gitlab.com/CalcProgrammer1/OpenRGB. Releas…
Mythos能力跃迁:结构化推理与闸门式发布的工程实践
1. 项目概述:一次被刻意“锁住”的能力跃迁 “TAI #200: Anthropic’s Mythos Capability Step Change and Gated Release”——这个标题里没有一行代码,没有一个参数,却像一道精准的手术刀,划开了当前大模型能力演进中一个最耐人…
国产麒麟搭建内网时间服务器:从踩坑到批量搞定数百台Win7实战
国产麒麟搭建内网时间服务器:从踩坑到批量搞定数百台Win7实战摘要背景与痛点环境说明服务端配置(麒麟)客户端踩坑实录(Win7)批量部署最终版bat脚本(有日志、用户友好)验证方法避坑清单总结摘要 …
Claude推理调度层蒸发:从胶水代码到协议级流式响应
1. 项目概述:这不是一次普通更新,而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题一出来,我正在调试一个Claude调用链的终端窗口就停住了。不是因为震惊,而是因为熟悉&am…
Claude Managed Agents:AI 代理的运行时操作系统革命
1. 这不是新赛道,是 runtime 层的“操作系统时刻”来了 你有没有在深夜调试一个跑了三小时的 AI 代理,突然发现它开始胡言乱语,翻看日志却只看到一串被截断的 JSON?或者更糟——根本没日志,只有模型输出里一句轻飘飘的…
Selenium元素定位全解析:从八大方法到实战策略
1. 项目概述:从“找东西”到“精准操控” 做自动化测试,尤其是Web UI自动化,最核心也最让人头疼的一步是什么?不是写复杂的业务逻辑,也不是处理异步加载,而是最基础的—— 让程序找到页面上那个你想操作的…
移动端UI自动化测试框架Maestro终极指南:从入门到实战
1. 项目概述:为什么是Maestro? 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架,那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest,也折腾过各种基于图…
BurpSuite Cluster Bomb模式深度避坑指南:从原理到实战的完整爆破策略
1. 项目概述:从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试,尤其是Web应用安全评估,那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里,功能最强大、也最让人又爱又恨的,莫过…
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
华为OD机试2025C卷-字符统计及重排[100分]( Java _ Python3 _ C++ _ C语言 _ JsNode _ Go)实现100%通过率
📫 个人主页:深夜coding算法 📣 专栏系列:2026年华为最新OD机试题库详解 🔥 一次订阅,永久解锁 | 持续更新100篇 | 6语言全覆盖 文章目录❄️前言:☀️一:题目描述🌙 题目…
华为OD机试2025C卷-寻找相同子串[100分]( Java _ Python3 _ C++ _ C语言 _ JsNode _ Go)实现100%通过率
📫 个人主页:深夜coding算法 📣 专栏系列:2026年华为最新OD机试题库详解 🔥 一次订阅,永久解锁 | 持续更新100篇 | 6语言全覆盖 文章目录❄️前言:☀️一:题目描述🌙 题目…
FAE放射组学分析工具:医学影像特征探索的完整解决方案
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
0.69B参数实现中文多模态AI:揭秘Qwen3-SmVL模型融合技术的完整实战指南
0.69B参数实现中文多模态AI:揭秘Qwen3-SmVL模型融合技术的完整实战指南 【免费下载链接】happy-llm 📚 从零开始构建大模型 项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…
解锁AMD Ryzen处理器性能潜力的SMU调试神器:从新手到专家的完整指南
解锁AMD Ryzen处理器性能潜力的SMU调试神器:从新手到专家的完整指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…