大模型显示优化之ZeRO-1/ZeRO-2/ZeRO-3

发布时间：2026/5/26 23:14:35

1. 简介zero-1、zero-2、zero-3 是deepspeed的配置方法对应megatron也有相应的方法Megatron-LM 的实现方式Distributed Optimizer分布式优化器。等效于 ZeRO-1Megatron 的 Distributed Optimizer 默认行为就是将优化器状态Optimizer States均匀地切分并分布在数据并行DP组的所有 GPU 上。等效于 ZeRO-2由于 Megatron 通常结合混合精度训练它在计算完梯度后会通过Reduce-Scatter操作直接将梯度同步并切分到各卡上不再保留全量梯度。这在效果上完全等同于 ZeRO-2。zero-3 将参数也拆分卡来存但后续实际反向梯度更新时操作时还是需要all-gather参数显存还是会全量缓存再一个Megatron针对参数拆分更多使用的是TP/PP拆分所以业界megatron架构使用zero-3不多, 所以本文不做重点分析。Zero架构说的是DP并行域GPU之间。阶段优化对象核心原理效果ZeRO-1优化器状态 (OS)将优化器状态切分并分布到各个 GPU 上每个 GPU 只负责更新自己那一块。显存占用降低约为原来的 1/4以 Adam 为例。ZeRO-2OS 梯度 (G)在 ZeRO-1 基础上进一步将梯度也进行切分。每个 GPU 只保留对应参数的梯度。进一步降低显存占用是目前最常用的平衡配置。ZeRO-3OS G 参数 (W)最彻底的切分。模型参数在平时也分布在不同 GPU 上只有在正向/反向传播需要时才临时同步。显存占用理论上随 GPU 数量线性下降支持训练超大规模模型。实际官方Megatron实现中ZeRO-2 反向不只是对梯度进行切分还对参数在back阶段进行了小段时间的切分后面AllGather回收是一个技术操作。这样好处1. 节省显存2. 避免冗余计算3. 最后的AllGather可以和后续的layer forward 做overlap纯 DPZeRO-2Forward各 rank 用完整 W各 rank 用完整 W相同Backward 后通信AllReduce梯度每人拿完整梯度ReduceScatter梯度每人只拿 1/DP 梯度显存也只存1/DP属于自己的梯度Optimizer step各自完整更新 W结果一致冗余计算各自只更新 W 的 1/DP 段(此更新过程比较复杂Step 后无需额外通信W 天然一致需要AllGather W恢复完整参数显存节省无梯度优化器状态各节省 1/DP注意AdamW全局grad_norm路径通信方式时机标准路径all_reduceon model parallel groupTP × DPoptimizer.step() 内clip grad 前PP bypass 路径TP 内all_reduce PP 间send/recv逐 stage 累加pre_step 阶段流水线化减少同步 barrierAdamW 的step()中确实有一次全局 grad norm 的all_reduce通信用于计算全局 L2 norm 以确定clip_coeff梯度裁剪系数。这是每一步更新都必须做的集合通信会引入跨所有 model parallel rank 的同步点。2. 显存与通信量分析为了让 ZeRO-1 和 ZeRO-2 的区别更加直观我把之前流程图里的抽象内容具体化成了4 张 GPU 卡在不同阶段的显存状态。这样你可以像看“快照”一样清晰地看到每张卡上到底存了什么。设定假设模型有4个参数块[P0, P1, P2, P3]。4 张 GPU 卡训练。FP16训练的模型为例参数量为参数 (Weights):字节。梯度 (Grads):字节。优化器Adam 状态:FP32 权重副本为了精度。Momentum动量。Variance方差。场景一ZeRO-1 (只切分优化器状态)核心特征每张卡都有完整的参数和完整的梯度但只负责更新1/4的优化器状态。GPU 卡前向/反向计算时梯度通信后 (All-Reduce)参数更新后GPU 0参数:[P0, P1, P2, P3]梯度:[G0, G1, G2, G3]优化器状态:[O0](只负责P0)梯度:[G_avg0, G_avg1, G_avg2, G_avg3](已同步为平均梯度)*用G_avg0更新O0 计算出P0_new然后拼出完整参数[P0_new, P1_new, P2_new....]GPU 1参数:[P0, P1, P2, P3]梯度:[G0, G1, G2, G3]优化器状态:[O1](只负责P1)梯度:[G_avg0, G_avg1, G_avg2, G_avg3]*用G_avg1更新O1 计算出P1_new然后拼出完整参数[P0_new, P1_new, P2_new....]显存占用高。因为每张卡都要存下4份参数 4份梯度。冗余度高。P0被同时存在了 4 张卡上。场景二ZeRO-2 (切分梯度优化器状态)核心特征每张卡有完整的参数但只保留1/4的梯度并只更新对应的1/4优化器状态。GPU 卡前向/反向计算时 (初始)梯度通信后 (Reduce-Scatter)参数更新后GPU 0参数:[P0, P1, P2, P3]梯度(原始):[G0, G1, G2, G3]优化器状态:[O0]梯度(保留):[G_avg0]梯度(丢弃):[G_avg1, G_avg2, G_avg3]✔️ 丢弃用G_avg0更新O0 计算出P0_new。然后通过 All-Gather 从其他卡获取 P1~P3 的更新。GPU 1参数:[P0, P1, P2, P3]梯度(原始):[G0, G1, G2, G3]优化器状态:[O1]梯度(保留):[G_avg1]梯度(丢弃):[G_avg0, G_avg2, G_avg3]✔️ 丢弃用G_avg1更新O1 计算出P1_new。然后通过 All-Gather 从其他卡获取 P0, P2, P3 的更新。显存占用中等。每张卡存4份参数 1份梯度。显存优化相比 ZeRO-1节省了 3 份梯度的存储空间。两张图的对比总结特征ZeRO-1 (图里场景)ZeRO-2 (图里场景)每张卡上的参数全部[P0, P1, P2, P3]全部[P0, P1, P2, P3]每张卡上的梯度全部[G_avg0...G_avg3](All-Reduce后)只有1块[G_avg0](Reduce-Scatter后)优化器状态分片[O0]分片[O0]参数更新方式各卡独立计算出完整参数各卡计算部分参数再互相广播合并主要节省不节省梯度节省了3/4的梯度显存通过这两张“快照”你应该能清晰地看到ZeRO-2 的本质就是用梯度通信后的一个“丢弃”动作换来了大量的显存空间。通信量总结维度ZeRO-1ZeRO-2ZeRO-3参数存储完整 (每卡都有)完整 (每卡都有)切分(每卡1/DP)梯度存储完整 (每卡都有)切分(每卡1/DP)切分(每卡1/DP)优化器状态切分 (每卡1/DP)切分 (每卡1/DP)切分 (每卡1/DP)单卡模型状态显存2Ψ 2Ψ 12Ψ/DP2Ψ 2Ψ/DP 12Ψ/DP(2Ψ2Ψ12Ψ)/DP主要通信All-Reduce (梯度)Reduce-Scatter All-GatherAll-Gather ×2 Reduce-Scatter通信量2×Ψ(最小)2×Ψ3×Ψ(最大)显存节省仅优化器状态优化器梯度全部3. Megatron ZeRO配置Stage分片内容Megatron对应参数ZeRO-1优化器状态分片m,v)--user-distributed-optimizerZeRO-2优化器分片梯度分片--user-distributed-optimizer--overlap-grad-reduceZeRO-3优化器分片梯度参数需要单独搞4. ZeRO2架构 backward过程计算梯度和更新参数的过程

跨平台资源下载终极指南：3分钟掌握res-downloader免费神器

跨平台资源下载终极指南：3分钟掌握res-downloader免费神器【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 你是否…

2026/5/26 23:13:52 阅读更多

AI拐点已至：2026年，这三大趋势将重塑智能产业

子玥酱 （掘金 / 知乎 / CSDN / 简书同名） 大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚…

2026/5/26 23:13:10 阅读更多

AI 漫剧商业接单新人必备实战干货

AI 漫剧、AI 仿真人漫剧入行，最终目标都是商业变现接单，新人想要稳定接单，核心是掌握符合市场需求的制作技术，懂规则、懂作品、懂对接。很多新人做不出符合甲方要求的作品，试稿屡屡不通过，核心是没掌握商业…

2026/5/26 23:11:48 阅读更多

思维导图笔记：大模型幻觉问题

大模型幻觉问题思维导图（定稿版） 总览幻觉产生的原因幻觉检测方法幻觉缓解策略（生成前/生成中）幻觉缓解策略（生成后）评估与评测体系一、幻觉产生的原因数据层面训练数据本身包含错误信息举例&#xff1…

2026/5/27 0:08:04 阅读更多

基于taotoken多模型聚合能力为ubuntu服务器构建智能问答助手

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度基于taotoken多模型聚合能力为ubuntu服务器构建智能问答助手对于运维工程师和后端开发者而言，服务器上的问题排查与知…

2026/5/27 0:08:04 阅读更多

从一次排障经历说起：Ubuntu服务器telnet服务起不来？教你一步步诊断和解决（openbsd-inetd重启无效的看这里）

Ubuntu服务器telnet服务故障排查实战指南凌晨三点，服务器告警铃声突然响起。客户报告生产环境的Ubuntu服务器telnet服务突然无法连接，而半小时前还一切正常。这种看似简单的服务故障，往往隐藏着系统深层的配置问题。本文将带您深入排查telnet…

2026/5/27 0:07:03 阅读更多

CNND-BRT：基于动态图神经网络的软件缺陷自动分派框架

1. 项目概述与核心挑战在大型开源软件项目中，每天都会涌入成百上千个缺陷报告。想象一下，如果你是Eclipse或Mozilla项目的维护者，面对一个标题模糊、描述冗长的新bug，第一反应很可能是头疼——该把它交给谁？传统的做法…

2026/5/27 0:07:03 阅读更多

大语言模型在法律领域的应用：技术原理、实战挑战与未来趋势

1. 项目概述：当大语言模型“闯入”法律界作为一名长期关注技术与行业交叉领域的从业者，我观察到，法律行业正经历一场由人工智能驱动的深刻变革。这场变革的核心驱动力之一，便是以GPT、BERT等为代表的大语言模型。法律工作的本质是…

2026/5/27 0:07:03 阅读更多

pandas实战入门：从数据导入到工程化部署的完整闭环

1. 这不是又一篇“照着抄就能跑”的pandas教程——而是一份我带过37个数据项目、踩过213次坑后，亲手重写的实战入门指南你点开这篇文字，大概率正处在这样一种状态：刚学完Python基础语法，对着Jupyter Notebook里那行import pandas …

2026/5/27 0:06:01 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章

跨平台资源下载终极指南：3分钟掌握res-downloader免费神器

AI拐点已至：2026年，这三大趋势将重塑智能产业

AI 漫剧商业接单 新人必备实战干货

思维导图笔记：大模型幻觉问题

基于taotoken多模型聚合能力为ubuntu服务器构建智能问答助手

从一次排障经历说起：Ubuntu服务器telnet服务起不来？教你一步步诊断和解决（openbsd-inetd重启无效的看这里）

CNND-BRT：基于动态图神经网络的软件缺陷自动分派框架

大语言模型在法律领域的应用：技术原理、实战挑战与未来趋势

pandas实战入门：从数据导入到工程化部署的完整闭环

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

中国AI岗位暴涨12倍，13种你没听过的AI岗位

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

AI 漫剧商业接单新人必备实战干货