别再被数学公式劝退！用Python代码一步步图解Diffusion扩散模型

发布时间：2026/5/24 8:45:26

用Python代码图解Diffusion扩散模型从噪声到图像的魔法之旅Diffusion模型近年来在生成式AI领域掀起了一场革命从Stable Diffusion这样的文生图大模型到音频生成、视频合成这项技术正在重塑内容创作的边界。但对于许多开发者来说那些充斥着概率论公式的论文让人望而生畏。本文将用Python代码和可视化图表带你亲手实现一个简化版Diffusion模型直观理解这个从噪声中创造世界的魔法。1. 扩散模型的核心思想破坏与重建的艺术想象你有一幅名画每次都用半透明的磨砂玻璃纸覆盖它一层。重复几百次后画作完全变成了一片模糊——这就是扩散前向过程。而Diffusion模型的神奇之处在于它学会了如何逆向操作从这片模糊中一步步猜出原始画作。关键概念图解import matplotlib.pyplot as plt import numpy as np def visualize_diffusion(): # 原始图像简化为一个数字8的路径 t np.linspace(0, 2*np.pi, 100) x np.sin(t) * 0.8 y np.sin(2*t) * 0.5 plt.figure(figsize(12, 4)) # 前向过程逐步加噪 for i in range(5): noise np.random.normal(0, 0.2*(i1), sizex.shape) plt.subplot(2, 5, i1) plt.scatter(x noise, y noise, s1) plt.title(fStep {i1}) plt.axis(off) # 逆向过程逐步去噪 for i in range(5): denoised_x x np.random.normal(0, 0.2*(5-i), sizex.shape) denoised_y y np.random.normal(0, 0.2*(5-i), sizey.shape) plt.subplot(2, 5, 6i) plt.scatter(denoised_x, denoised_y, s1) plt.title(fReverse {i1}) plt.axis(off) plt.tight_layout() plt.show() visualize_diffusion()这段代码展示了关键思想前向过程图像逐步被噪声淹没逆向过程从噪声中逐步恢复结构模型本质学习如何预测并移除噪声2. 动手实现用PyTorch构建微型Diffusion模型2.1 定义噪声调度控制噪声如何随时间步增加是模型成功的关键。我们使用余弦调度cosine schedule它在开始和结束时变化平缓import torch import math def cosine_beta_schedule(timesteps, s0.008): 余弦噪声调度函数 timesteps: 总时间步数 s: 控制调度曲线的平滑度 steps timesteps 1 x torch.linspace(0, timesteps, steps) alphas_cumprod torch.cos(((x / timesteps) s) / (1 s) * math.pi * 0.5) ** 2 alphas_cumprod alphas_cumprod / alphas_cumprod[0] betas 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1]) return torch.clamp(betas, 0, 0.999) timesteps 200 betas cosine_beta_schedule(timesteps) alphas 1. - betas alphas_cumprod torch.cumprod(alphas, dim0)2.2 实现前向扩散过程前向过程的核心是根据调度逐步添加噪声def forward_diffusion(x0, t, betas, devicecpu): 前向扩散过程 x0: 原始图像 (batch_size, channels, height, width) t: 时间步 (batch_size,) noise torch.randn_like(x0) sqrt_alphas_cumprod_t torch.sqrt(alphas_cumprod[t])[:, None, None, None] sqrt_one_minus_alphas_cumprod_t torch.sqrt(1. - alphas_cumprod[t])[:, None, None, None] return sqrt_alphas_cumprod_t.to(device) * x0.to(device) \ sqrt_one_minus_alphas_cumprod_t.to(device) * noise.to(device), noise.to(device)可视化前向过程def plot_forward_diffusion(): from torchvision.utils import make_grid # 示例图像这里用随机数据代替 x0 torch.randn(1, 3, 32, 32) steps_to_show [0, 20, 50, 100, 150, 199] images [] for step in steps_to_show: t torch.tensor([step]) xt, _ forward_diffusion(x0, t, betas) images.append(xt.squeeze()) grid make_grid(images, nrow3, normalizeTrue) plt.imshow(grid.permute(1, 2, 0)) plt.title(Forward Diffusion Process) plt.axis(off) plt.show() plot_forward_diffusion()2.3 构建UNet噪声预测器Diffusion模型的核心是一个能够预测噪声的神经网络。我们实现一个简化版UNetimport torch.nn as nn import torch.nn.functional as F class Block(nn.Module): def __init__(self, in_ch, out_ch, time_emb_dim): super().__init__() self.time_mlp nn.Linear(time_emb_dim, out_ch) self.conv1 nn.Conv2d(in_ch, out_ch, 3, padding1) self.conv2 nn.Conv2d(out_ch, out_ch, 3, padding1) def forward(self, x, t): h self.conv1(x) time_emb F.silu(self.time_mlp(t)) h h time_emb[:, :, None, None] h self.conv2(h) return h class SimpleUNet(nn.Module): def __init__(self): super().__init__() self.time_mlp nn.Sequential( nn.Linear(1, 32), nn.SiLU(), nn.Linear(32, 32) ) self.down1 Block(3, 32, 32) self.down2 Block(32, 64, 32) self.middle Block(64, 64, 32) self.up2 Block(128, 32, 32) self.up1 Block(64, 3, 32) def forward(self, x, t): # 时间嵌入 t self.time_mlp(t.unsqueeze(-1)) # 下采样路径 h1 self.down1(x, t) h2 self.down2(F.max_pool2d(h1, 2), t) # 中间层 h self.middle(F.max_pool2d(h2, 2), t) # 上采样路径 h F.interpolate(h, scale_factor2) h self.up2(torch.cat([h, h2], dim1), t) h F.interpolate(h, scale_factor2) h self.up1(torch.cat([h, h1], dim1), t) return h3. 训练与采样让模型学会想象3.1 训练循环实现训练目标是让UNet能够准确预测添加到图像中的噪声def train_step(model, x0, t, betas, device): # 1. 前向扩散过程 xt, noise forward_diffusion(x0, t, betas, device) # 2. 预测噪声 predicted_noise model(xt, t.float()) # 3. 计算损失 loss F.mse_loss(predicted_noise, noise) return loss def train(model, dataloader, epochs10, devicecpu): optimizer torch.optim.Adam(model.parameters(), lr1e-3) for epoch in range(epochs): for batch_idx, (x0, _) in enumerate(dataloader): x0 x0.to(device) batch_size x0.shape[0] # 随机采样时间步 t torch.randint(0, timesteps, (batch_size,), devicedevice) # 训练步骤 loss train_step(model, x0, t, betas, device) # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() if batch_idx % 100 0: print(fEpoch {epoch} | Batch {batch_idx} | Loss: {loss.item():.4f})3.2 逆向采样过程训练完成后我们可以从纯噪声开始逐步去噪生成新图像torch.no_grad() def sample(model, image_size, batch_size16, channels3, devicecpu): # 从纯噪声开始 x torch.randn((batch_size, channels, image_size, image_size), devicedevice) # 逆向时间步 for t in reversed(range(timesteps)): t_tensor torch.full((batch_size,), t, devicedevice, dtypetorch.long) # 预测噪声 predicted_noise model(x, t_tensor.float()) # 计算去噪后的图像 alpha_t alphas[t] alpha_cumprod_t alphas_cumprod[t] beta_t betas[t] if t 0: noise torch.randn_like(x) else: noise torch.zeros_like(x) x 1 / torch.sqrt(alpha_t) * (x - ((1 - alpha_t) / torch.sqrt(1 - alpha_cumprod_t)) * predicted_noise) torch.sqrt(beta_t) * noise # 将像素值限制在[-1,1]范围内 x torch.clamp(x, -1., 1.) return x可视化采样过程def plot_sampling_process(model, devicecpu): # 生成采样过程的中间结果 x torch.randn((1, 3, 32, 32), devicedevice) steps_to_show [199, 150, 100, 50, 20, 0] images [] for t in reversed(range(timesteps)): t_tensor torch.full((1,), t, devicedevice, dtypetorch.long) predicted_noise model(x, t_tensor.float()) alpha_t alphas[t] alpha_cumprod_t alphas_cumprod[t] beta_t betas[t] if t 0: noise torch.randn_like(x) else: noise torch.zeros_like(x) x 1 / torch.sqrt(alpha_t) * (x - ((1 - alpha_t) / torch.sqrt(1 - alpha_cumprod_t)) * predicted_noise) torch.sqrt(beta_t) * noise if t in steps_to_show: images.append(x.detach().cpu().squeeze()) grid make_grid(images, nrow3, normalizeTrue) plt.imshow(grid.permute(1, 2, 0)) plt.title(Reverse Sampling Process) plt.axis(off) plt.show()4. 实战技巧与性能优化4.1 关键超参数选择参数推荐值作用调整建议timesteps200-1000扩散步数更多步数更好质量但更慢batch_size32-128训练批次大小根据GPU内存调整learning_rate1e-4到3e-4学习率太大导致不稳定太小收敛慢image_size32-256图像分辨率分辨率越高计算量越大4.2 加速采样的技巧DDIM采样可以跳过部分时间步加速生成过程渐进式蒸馏训练一个学生模型来模仿多步采样混合精度训练使用FP16减少内存占用# DDIM采样示例 torch.no_grad() def ddim_sample(model, image_size, batch_size16, steps50, devicecpu): step_ratio timesteps // steps x torch.randn((batch_size, 3, image_size, image_size), devicedevice) for t in reversed(range(0, timesteps, step_ratio)): t_tensor torch.full((batch_size,), t, devicedevice, dtypetorch.long) predicted_noise model(x, t_tensor.float()) alpha_cumprod_t alphas_cumprod[t] alpha_cumprod_t_prev alphas_cumprod[t - step_ratio] if t step_ratio else torch.tensor(1.0) x torch.sqrt(alpha_cumprod_t_prev) * predicted_noise \ torch.sqrt(1 - alpha_cumprod_t_prev) * predicted_noise return x4.3 常见问题排查提示如果生成的图像始终模糊可能是以下原因训练时间不足模型容量太小噪声调度不合理学习率设置不当在实际项目中我发现调整噪声调度对结果影响显著。余弦调度通常比线性调度表现更好特别是在保留图像细节方面。另一个实用技巧是在训练初期使用较小的图像尺寸如64x64等模型收敛后再微调更高分辨率。

如何用ColorControl实现专业级显示管理：NVIDIA/AMD显卡调优与智能电视控制完全指南

如何用ColorControl实现专业级显示管理：NVIDIA/AMD显卡调优与智能电视控制完全指南【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl 厌倦了在Window…

2026/5/24 8:45:26 阅读更多

【信息科学与工程学】计算机科学与自动化 ——第六十五篇虚拟化01

虚拟化领域核心算法详解算法1: Credit调度算法编号: 1 类型: 资源调度算法虚拟化领域: CPU虚拟化算法声明: Credit调度算法是一种基于权重的抢占式调度算法，用于在多个虚拟机之间公平分配CPU资源，确保每个虚拟机按权重比例获得CPU时间。算法逐步推理思考的…

2026/5/24 8:45:06 阅读更多

终极免费方案：5分钟解锁Windows多用户远程桌面完整指南

终极免费方案：5分钟解锁Windows多用户远程桌面完整指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap 还在为Windows家庭版限制远程桌面连接而烦恼吗？RDP Wrapper Library为您提供完美的解…

2026/5/24 8:43:24 阅读更多

Godot 4回合制RPG五步构建法：状态机+Action组合+Tween动画+快照存档

1. 这不是又一个“Hello World”式RPG教程——它真能跑通完整战斗循环你点开过多少个标着“Godot 4 RPG教程”的视频或文章？前两分钟演示主角移动、第三分钟加了个对话框、第四分钟说“下期教战斗系统”……然后就没有下期了。我试过不下二十个所谓“完整教程”&…

2026/5/25 2:19:17 阅读更多

别再只用XGBoost了！用Python手把手教你玩转Stacking和Blending模型融合

别再只用XGBoost了！用Python手把手教你玩转Stacking和Blending模型融合当你在Kaggle竞赛中反复调整XGBoost参数却始终无法突破0.01的AUC提升，或者在业务场景中发现单一模型对某些特殊样本总是预测失误时，或许该换个思路了——就像交响乐团需要…

2026/5/25 2:18:16 阅读更多

OTSU算法实战：用Python+NumPy从零实现图像二值化（附常见坑点解析）

OTSU算法实战：用PythonNumPy从零实现图像二值化（附常见坑点解析）在数字图像处理领域，二值化是将灰度图像转换为黑白图像的关键步骤。而OTSU算法（大津法）作为自适应阈值选取的经典方法，其优雅的数…

2026/5/25 2:18:16 阅读更多

从‘边缘密度’到‘贝叶斯推断’：一个被概率论教材忽略的实战应用场景

从‘边缘密度’到‘贝叶斯推断’：概率论在系统性能评估中的实战应用当我们需要评估两台服务器的响应时间差异时，概率论中的边缘密度和贝叶斯推断不再是抽象的数学概念，而是解决实际问题的利器。本文将带你从理论到实践，探索如何用…

2026/5/25 2:18:16 阅读更多

SSH Host key verification failed 原因与安全处理指南

1. 这个报错不是故障，而是SSH在认真履职“Host key verification failed”——第一次看到这个提示时，我正远程部署一个客户服务器，敲完ssh user192.168.3.45回车，终端突然卡住两秒，然后跳出这行红字，后面还…

2026/5/25 2:17:35 阅读更多

Netcat (nc) 全面使用指南

Netcat 被誉为网络工具中的"瑞士军刀"，是一个功能强大的网络调试和诊断工具。它可以在 TCP/UDP 协议下进行连接、监听、端口扫描、文件传输和代理转发等操作。一、安装与基本语法 1.1 安装方法操作系统安装命令Ubuntu/Debiansudo apt install netcat…

2026/5/25 2:17:15 阅读更多

Go语言SQLite轻量级数据库应用

Go语言SQLite轻量级数据库应用引言 SQLite是一款轻量级的嵌入式数据库，无需独立服务进程，非常适合单机应用、移动端应用和开发测试环境。Go语言通过database/sql包配合go-sqlite3驱动可以方便地操作SQLite数据库。本文将深入探讨Go语言中SQLite的使用技…

2026/5/25 0:01:30 阅读更多

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验前言大家好，我是cannonmonster01！今天咱们来聊聊屏幕阅读器兼容性这个话题。想象一下，一个视障用户打开你的网站，通过屏幕阅读器来浏览内容。如果你的网站没有…

2026/5/25 0:02:31 阅读更多

2026年横评10款降AI率软件:只选真正管用的那一款！

随着AI写作工具的广泛应用，论文写作和内容创作效率得到了显著提升，许多学生和职场人士都开始依赖这些工具来完成繁重的文字任务。然而，随着各大高校、期刊平台对AIGC内容检测技术的不断升级，AI生成内容的痕迹越来越容易被识别。不…

2026/5/25 0:04:13 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

如何用ColorControl实现专业级显示管理：NVIDIA/AMD显卡调优与智能电视控制完全指南

【信息科学与工程学】计算机科学与自动化 ——第六十五篇 虚拟化01

终极免费方案：5分钟解锁Windows多用户远程桌面完整指南

Godot 4回合制RPG五步构建法：状态机+Action组合+Tween动画+快照存档

别再只用XGBoost了！用Python手把手教你玩转Stacking和Blending模型融合

OTSU算法实战：用Python+NumPy从零实现图像二值化（附常见坑点解析）

从‘边缘密度’到‘贝叶斯推断’：一个被概率论教材忽略的实战应用场景

SSH Host key verification failed 原因与安全处理指南

Netcat (nc) 全面使用指南

Go语言SQLite轻量级数据库应用

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

2026年横评10款降AI率软件:只选真正管用的那一款！

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

【信息科学与工程学】计算机科学与自动化 ——第六十五篇虚拟化01