手把手复现Glow论文：用PyTorch从零搭建可逆生成流，完成CIFAR-10图像生成

发布时间：2026/5/20 18:29:03

从零实现Glow模型基于PyTorch的可逆生成流实战指南在生成模型领域可逆神经网络正逐渐成为研究热点。不同于GANs和VAEs基于流的生成模型Flow-based Generative Models具有精确的对数似然计算、高效的可逆推理等独特优势。本文将带您从零开始实现Glow模型——这一基于可逆1×1卷积的先进生成流架构并在CIFAR-10数据集上完成图像生成任务。1. 环境准备与数据加载实现Glow模型前需要配置合适的开发环境。推荐使用Python 3.8和PyTorch 1.10环境同时安装以下依赖库pip install torch torchvision numpy matplotlib tqdm对于CIFAR-10数据集PyTorch提供了便捷的加载接口。我们采用以下预处理流程import torch from torchvision import datasets, transforms # 数据预处理 transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 加载训练集和测试集 train_dataset datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtransform) test_dataset datasets.CIFAR10(root./data, trainFalse, downloadTrue, transformtransform) # 创建数据加载器 train_loader torch.utils.data.DataLoader(train_dataset, batch_size64, shuffleTrue) test_loader torch.utils.data.DataLoader(test_dataset, batch_size64, shuffleFalse)提示在训练生成模型时建议使用较大的batch size如256或512以获得更稳定的梯度估计。若GPU内存有限可适当降低batch size但需相应调整学习率。Glow模型的核心组件包括ActNorm层数据依赖初始化的标准化层可逆1×1卷积替代传统排列操作仿射耦合层非线性变换的核心模块多尺度架构分层特征提取2. 核心模块实现2.1 ActNorm层实现ActNorm层结合了批归一化的优点同时避免了小批量下的性能下降问题。其数学形式为$$ y s \odot x b $$其中$s$和$b$是可学习参数初始化为使激活具有零均值和单位方差的值。class ActNorm(nn.Module): def __init__(self, in_channels): super().__init__() self.loc nn.Parameter(torch.zeros(1, in_channels, 1, 1)) self.scale nn.Parameter(torch.ones(1, in_channels, 1, 1)) self.initialized False def forward(self, x, reverseFalse): if not reverse: # 初始化阶段 if not self.initialized: with torch.no_grad(): flatten x.permute(1,0,2,3).contiguous().view(x.shape[1], -1) mean flatten.mean(1).view(1, -1, 1, 1) std flatten.std(1).view(1, -1, 1, 1) self.loc.data.copy_(-mean) self.scale.data.copy_(1 / (std 1e-6)) self.initialized True log_abs torch.log(torch.abs(self.scale)) logdet torch.sum(log_abs) * x.shape[2] * x.shape[3] return self.scale * (x self.loc), logdet else: return (x / self.scale) - self.loc, None2.2 可逆1×1卷积的LU分解实现传统1×1卷积的计算复杂度为$O(c^3)$通过LU分解可降至$O(c)$class Invertible1x1Conv(nn.Module): def __init__(self, dim): super().__init__() self.dim dim W torch.randn(dim, dim) W torch.qr(W)[0] # 正交初始化 # LU分解 P, L, U torch.lu_unpack(*torch.lu(W)) self.P P # 固定排列矩阵 self.L nn.Parameter(L) # 下三角 self.U nn.Parameter(U) # 上三角 self.s nn.Parameter(torch.diag(U)) # 对角线元素 self.U self.U - torch.diag(torch.diag(self.U)) # 去除对角线 def forward(self, x, reverseFalse): batch, channels, height, width x.shape # 构造权重矩阵 L torch.tril(self.L, diagonal-1) torch.eye(self.dim) U torch.triu(self.U, diagonal1) W self.P L (U torch.diag(self.s)) if not reverse: z F.conv2d(x, W.view(channels, channels, 1, 1)) logdet height * width * torch.sum(torch.log(torch.abs(self.s))) return z, logdet else: W_inv torch.inverse(W) z F.conv2d(x, W_inv.view(channels, channels, 1, 1)) return z, None2.3 仿射耦合层设计仿射耦合层是Glow模型的核心非线性变换模块其结构如下class AffineCoupling(nn.Module): def __init__(self, in_channels, hidden_channels): super().__init__() self.net nn.Sequential( nn.Conv2d(in_channels//2, hidden_channels, 3, padding1), nn.ReLU(), nn.Conv2d(hidden_channels, hidden_channels, 1), nn.ReLU(), nn.Conv2d(hidden_channels, in_channels, 3, padding1) ) # 最后一层初始化为零 self.net[-1].weight.data.zero_() self.net[-1].bias.data.zero_() def forward(self, x, reverseFalse): x_a, x_b x.chunk(2, dim1) if not reverse: log_s, t self.net(x_a).chunk(2, dim1) s torch.sigmoid(log_s 2.0) # 确保s0 z_b (x_b t) * s logdet torch.sum(torch.log(s).view(x.shape[0], -1), dim1) return torch.cat([x_a, z_b], dim1), logdet else: log_s, t self.net(x_a).chunk(2, dim1) s torch.sigmoid(log_s 2.0) z_b x_b / s - t return torch.cat([x_a, z_b], dim1)3. 多尺度流架构构建Glow采用分层结构逐步处理输入数据每层包含多个流步骤class FlowStep(nn.Module): def __init__(self, in_channels, hidden_channels): super().__init__() self.actnorm ActNorm(in_channels) self.inv_conv Invertible1x1Conv(in_channels) self.coupling AffineCoupling(in_channels, hidden_channels) def forward(self, x, reverseFalse): if not reverse: z, logdet1 self.actnorm(x) z, logdet2 self.inv_conv(z) z, logdet3 self.coupling(z) return z, logdet1 logdet2 logdet3 else: z, _ self.coupling(x, reverseTrue) z, _ self.inv_conv(z, reverseTrue) z, _ self.actnorm(z, reverseTrue) return z完整的Glow模型通过多个尺度Level处理输入class Glow(nn.Module): def __init__(self, in_channels, hidden_channels, K, L): super().__init__() self.flows nn.ModuleList() for _ in range(L): # 每个Level包含K个流步骤 self.flows.append(nn.ModuleList([ FlowStep(in_channels, hidden_channels) for _ in range(K) ])) # 尺度变换 self.flows.append(Squeeze()) in_channels * 4 def forward(self, x, reverseFalse): if not reverse: log_det 0 for flow in self.flows: x, det flow(x) log_det det return x, log_det else: for flow in reversed(self.flows): x flow(x, reverseTrue) return x4. 训练技巧与结果可视化4.1 损失函数与优化器Glow模型使用负对数似然作为损失函数def loss_fn(z, log_det, prior_std1.0): # 先验分布为高斯分布 prior_logprob -0.5 * (z**2 / prior_std**2 math.log(2*math.pi*prior_std**2)) prior_logprob prior_logprob.view(z.shape[0], -1).sum(1) # 总损失 return -(prior_logprob log_det).mean() # 优化器配置 optimizer torch.optim.Adam(model.parameters(), lr1e-3) scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size30, gamma0.5)4.2 训练过程中的关键技巧梯度裁剪防止梯度爆炸torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm5.0)学习率预热前5个epoch线性增加学习率lr min(epoch / 5.0, 1.0) * base_lr温度调节采样时调整温度参数def sample(model, temperature0.7, img_size32): with torch.no_grad(): z temperature * torch.randn(1, 3*img_size*img_size) return model(z, reverseTrue)4.3 结果可视化与分析经过约100个epoch的训练模型在CIFAR-10上可以达到约3.5 bits/dim的负对数似然。生成样本质量明显优于传统VAE接近GANs的生成效果同时保留了精确密度估计的优势。import matplotlib.pyplot as plt def show_images(images, nrow8): plt.figure(figsize(10,10)) grid torchvision.utils.make_grid(images, nrownrow, normalizeTrue) plt.imshow(grid.permute(1,2,0).cpu()) plt.axis(off) plt.show() # 生成样本 samples sample(model, temperature0.7) show_images(samples)在实际项目中我们发现几个关键改进点使用学习率预热可显著提升训练稳定性适当增加模型深度K32比增加宽度更有效采样温度设为0.7时在多样性和质量间取得最佳平衡

终极解决方案：3分钟掌握WindowResizer，让所有Windows窗口都听你指挥！

终极解决方案：3分钟掌握WindowResizer，让所有Windows窗口都听你指挥！ 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 还在为那些固执的Windows窗…

2026/5/20 18:28:43 阅读更多

企业如何利用多模型聚合能力构建智能客服系统

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度企业如何利用多模型聚合能力构建智能客服系统对于有智能客服需求的企业技术团队而言，构建一个稳定、高效且成本可控的…

2026/5/20 18:28:43 阅读更多

英特尔开发人员专区Windows版：性能优化与混合架构实战指南

1. 项目概述：为什么开发者需要关注Windows版本如果你是一名在Windows平台上进行开发的工程师，无论是做桌面应用、游戏、嵌入式系统还是AI推理，那么“英特尔开发人员专区”里关于Windows版本的信息，绝对是你工具箱里不可或缺的参考…

2026/5/20 18:28:43 阅读更多

【DeepSeek首席算法工程师亲授】：A/B测试统计功效不足的6种隐性根源及实时校准方案

更多请点击： https://intelliparadigm.com 第一章：A/B测试统计功效不足的系统性认知统计功效（Statistical Power）——即正确拒绝原假设的能力——在A/B测试实践中长期被低估。当功效低于 0.8，意味着每五次真实有效的…

2026/5/20 21:44:00 阅读更多

手把手教你用MPU6050和nRF52832实现手环计步（附完整代码与避坑指南）

手把手教你用MPU6050和nRF52832实现高精度计步功能在可穿戴设备开发领域，计步功能是最基础却又最考验细节实现的核心模块。本文将带您从硬件连接到算法优化，完整实现一个基于MPU6050六轴传感器和nRF52832低功耗蓝牙MCU的计步方案。不同于简单的数据采集…

2026/5/20 21:44:00 阅读更多

C语言函数计算实战：从CORDIC、泰勒级数到查表与标准库的性能抉择

1. 为什么需要自己实现数学函数？ 在嵌入式开发或高性能计算中，我们常常会遇到一个看似简单的问题：如何高效计算三角函数、对数函数等复杂数学函数？很多新手开发者的第一反应是直接调用标准库的math.h，这确实是最简单的…

2026/5/20 21:42:22 阅读更多

Verilog数字电路设计：竞争与冒险的成因、识别与消除实战

1. 项目概述：数字电路中的“幽灵”信号在数字电路设计，尤其是使用硬件描述语言（Verilog）进行前端设计时，我们常常会沉浸在逻辑功能的正确性验证中。仿真波形看起来完美无瑕，逻辑表达式化简得无懈可击&#…

2026/5/20 21:42:22 阅读更多

从‘长度’到‘大小’：图解向量的模、矩阵的范数和行列式到底有什么区别？

从‘长度’到‘大小’：图解向量的模、矩阵的范数和行列式到底有什么区别？ 线性代数中那些看似相似的“度量”概念——向量的模、矩阵的范数和行列式，常常让学习者感到困惑。它们都涉及“大小”的衡量，但背后的几何意义和数学本质却…

2026/5/20 21:42:02 阅读更多

新手别怕！用51单片机+74HC138/573点亮静态数码管，保姆级代码+仿真（Keil C51）

从零玩转51单片机：静态数码管驱动全攻略（74HC13874HC573实战） 第一次拿到51单片机开发板时，看到原理图上密密麻麻的74HC138、74HC573芯片标识，很多初学者都会感到无从下手。这些看似复杂的数字芯片，实际上是…

2026/5/20 21:42:02 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

终极解决方案：3分钟掌握WindowResizer，让所有Windows窗口都听你指挥！

企业如何利用多模型聚合能力构建智能客服系统

英特尔开发人员专区Windows版：性能优化与混合架构实战指南

【DeepSeek首席算法工程师亲授】：A/B测试统计功效不足的6种隐性根源及实时校准方案

手把手教你用MPU6050和nRF52832实现手环计步（附完整代码与避坑指南）

C语言函数计算实战：从CORDIC、泰勒级数到查表与标准库的性能抉择

Verilog数字电路设计：竞争与冒险的成因、识别与消除实战

从‘长度’到‘大小’：图解向量的模、矩阵的范数和行列式到底有什么区别？

新手别怕！用51单片机+74HC138/573点亮静态数码管，保姆级代码+仿真（Keil C51）

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)