通过训练代码来理解DLLM扩散语言模型

发布时间：2026/5/21 15:19:43

1. 引入Diffusion-LLMDLLM 是扩散语言模型Diffusion Large Language Model它与LLM有什么区别呢1共同点都是以Transformer结构为主的模型2差异点LLM是 “从左到右的自回归Autoregressive生成” 逻辑就是基于已生成的左侧上下文逐一生成下一个令牌直到触发终止符DLLM不是预测下一个token。而是采用迭代去噪的扩散生成生成过程分为前向腐蚀和反向去噪两个阶段核心是 “从全噪声 / 掩码序列中通过多步迭代逐步恢复出有效序列”生成过程是双向、并行、可迭代修正的。听上去有些抽象我们下面从代码层面上来理解DLLM。2. DLLM最简化代码2.1. DLLM简化代码下面是一个DLLM最简单的训练代码包括了简单的数据集、处理、训练、生成过程importtorchimporttorch.nnasnnimporttorch.optimasoptim# 超参数 vocab_size1000embed_dim64seq_len16hidden_dim128timesteps20batch_size4lr1e-3# 简易词汇表与英文句子 # 真实英文句子已截断/补齐到 seq_lensentences[i love deep learning and diffusion models,language models can generate coherent text,diffusion models work by denoising gradually,transformer is the backbone of modern llm,we train a diffusion language model today]# 简易分词按空格构建词表wordslist({wforsinsentencesforwins.split()})word2idx{w:i1fori,winenumerate(words)}# 0 padidx2word{i:wforw,iinword2idx.items()}vocab_sizelen(word2idx)1# 句子转 token并补齐到 seq_lendeftokenize(s):tokens[word2idx[w]forwins.split()ifwinword2idx]tokenstokens[:seq_len]tokens[0]*(seq_len-len(tokens))returntorch.tensor(tokens)datasettorch.stack([tokenize(s)forsinsentences])print(dataset.shape{0}.format(dataset.shape))# torch.Size([5, 16])# 嵌入层 embeddingnn.Embedding(vocab_size,embed_dim)# Diffusion 去噪模型 classDenoiseTransformer(nn.Module):def__init__(self):super().__init__()self.time_embnn.Embedding(timesteps,embed_dim)self.layernn.TransformerEncoderLayer(d_modelembed_dim,nhead2,dim_feedforwardhidden_dim,batch_firstTrue,activationgelu)self.outnn.Linear(embed_dim,embed_dim)defforward(self,x,t):# x: [B, L, D]# t: [B]t_embself.time_emb(t).unsqueeze(1)# [B,1,D]xxt_emb xself.layer(x)returnself.out(x)modelDenoiseTransformer()optoptim.Adam(model.parameters(),lrlr)# 扩散前向过程 defforward_process(x0,t):noisetorch.randn_like(x0)# 简单线性调度alphatorch.linspace(0.05,0.99,timesteps)[t]alphaalpha.view(-1,1,1)xttorch.sqrt(alpha)*x0torch.sqrt(1-alpha)*noisereturnxt,noise# 训练 print(开始训练 DLLM...\n)forstepinrange(2000):idxtorch.randint(0,len(dataset),(batch_size,))x_idsdataset[idx]x0embedding(x_ids)# 干净的词嵌入 [B,L,D]ttorch.randint(0,timesteps,(batch_size,))xt,noiseforward_process(x0,t)pred_noisemodel(xt,t)loss(pred_noise-noise).pow(2).mean()opt.zero_grad()loss.backward()opt.step()ifstep%2000:print(fstep{step:04d}| loss{loss.item():.4f})# DLLM 反向生成采样print(\n DLLM 生成句子 )xtorch.randn(1,seq_len,embed_dim)# 从纯噪声开始print(x.shape{0}.format(x.shape))# x.shapetorch.Size([1, 16, 64])# 刚开始全是噪声logitsx embedding.weight.T pred_idslogits.argmax(-1).squeeze().tolist()pred_words[idx2word.get(i,pad)foriinpred_idsifi!0]print(初始噪声, .join(pred_words))fort_stepinreversed(range(timesteps)):withtorch.no_grad():pred_nmodel(x,torch.tensor([t_step]))alphatorch.linspace(0.05,0.99,timesteps)[t_step]# 去噪一步x(x-torch.sqrt(1-alpha)*pred_n)/torch.sqrt(alpha)# 映射回单词logitsx embedding.weight.T pred_idslogits.argmax(-1).squeeze().tolist()pred_words[idx2word.get(i,pad)foriinpred_idsifi!0]print(生成句子, .join(pred_words))运行后程序输出dataset.shapetorch.Size([5,16])开始训练 DLLM... step 0000|loss1.3353step 0200|loss0.7625step 0400|loss0.6536step 0600|loss0.5462step 0800|loss0.5811step1000|loss0.4207step1200|loss0.3732step1400|loss0.5663step1600|loss0.3291step1800|loss0.3746DLLM 生成句子x.shapetorch.Size([1,16,64])初始噪声 of is by models we train of love text deep is learning the the today work 生成句子 by language language language language models by by by by可以从中看到DLLM最有特色的地方是针对输入的噪声x一个句子进行去噪后直接生成一个最终的句子。这个过程一开始全是随机噪声x模型一步步去掉噪声最后直接输出一整句话。整个过程是并行生成一步一步去噪不是预测下一个词。而普通LLMGPT、LLaMA输入比如是“I love”输出则是预测下一个词 deep再输入I love deep再输出learning。LLM是逐词生成串行自回归模型。2.2 DLLM特点1前向扩散加噪defforward_process(x0,t):noisetorch.randn_like(x0)xtsqrt(alpha)*x0sqrt(1-alpha)*noisereturnxt,noise2预测噪声pred_noisemodel(xt,t)3噪声损失 MSEloss(pred_noise-noise).pow(2).mean()4反向采样去噪生成xtorch.randn(...)# 从纯噪声开始fortinreversed(...):x(x-sqrt(1-alpha)*pred_n)/sqrt(alpha)3. 区别LLM与DLLM根据上面的解释我们再来理解这几个差异点就容易一些生成内容的方式不同LLM是 “从左到右的自回归Autoregressive生成” 逻辑就是基于已生成的左侧上下文逐一生成下一个令牌直到触发终止符DLLM不是预测下一个token。而是采用迭代去噪的扩散生成生成过程分为前向腐蚀和反向去噪两个阶段核心是 “从全噪声 / 掩码序列中通过多步迭代逐步恢复出有效序列”生成过程是双向、并行、可迭代修正的。训练的目标不同LLM训练目标主要是预测下一个单词损失函数一般为CrossEntropyLossDLLM训练目标是预测加进去的高斯噪声损失函数一般为 MSE预测噪声 - 真实噪声比如上面代码中loss (pred_noise - noise).pow(2).mean()数据处理方式不同LLM直接对 token ID 建模输出单词概率。LLM 不会对连续向量做扩散去噪。DLLM对词嵌入向量continuous embedding 加噪、去噪。最后才映射回单词。4. 总结DLLM✅ 使用扩散✅ 对句子向量加噪✅ 训练模型预测噪声✅ 从噪声生成整句✅ 不是自回归✅ 不是预测下一个词普通 LLM❌ 无扩散❌ 无加噪❌ 无去噪✅ 逐词生成Diffusion 加噪声去噪声的整套流程5. 参考Large Language Diffusion Models. https://arxiv.org/abs/2502.09992https://github.com/Diffusion-LLM/Awesome-DiffusionLLMhttps://zhuanlan.zhihu.com/p/1913691243197752405

穿戴设备进化：智能手表能否独立取代手机？

近年来，智能手表的功能不断突破，从最初的消息提醒、健康监测，发展到如今支持独立通话、应用安装甚至移动支付。越来越多的人开始思考：智能手表是否有朝一日能够彻底取代手机，成为我们随身携带的唯一智能终端&#xff1…

2026/5/21 22:43:03 阅读更多

解锁华硕笔记本性能：通过G-Helper实现CPU电压精准优化

解锁华硕笔记本性能：通过G-Helper实现CPU电压精准优化【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址…

2026/5/18 13:42:27 阅读更多

我的LVDS信号有振铃？可能是端接电阻没选对！从仿真到实测的端接方案选择指南

LVDS信号振铃问题全解析：从端接电阻选择到实测验证振铃现象是LVDS信号传输中最令人头疼的问题之一。当你在示波器上看到信号边沿出现振荡波形时，第一反应可能是怀疑PCB布局或信号源质量。但经验丰富的工程师都知道，80%的振铃问题根源在于端接…

2026/5/20 5:14:01 阅读更多

遥测数据定义的生产级落地规范指南

在分布式架构与微服务体系中，将 Tracing（链路）、Metrics（指标）、Logs（日志）三种遥测数据有机构建为“三位一体” (3D Observability) 的可观测性网络，是保障系统高可用性的基石。以…

2026/5/21 22:33:27 阅读更多

RAG：终结AI幻觉，让你的大语言模型秒变“知识渊博”！

本文深入浅出地介绍了检索增强生成（RAG）技术，解释了其如何通过结合文档检索与大语言模型（LLM），有效减少AI幻觉现象。文章详细阐述了RAG的工作流程，包括数据分块、嵌入转换、向量数据库存储、问题…

2026/5/21 22:32:26 阅读更多

第22课：LangChain｜RAG进阶优化【重排序、上下文压缩、混合检索策略】

文章目录课程导读 & 学习目标前置知识与环境准备1.1 环境沿用1.2 依赖包安装1.3 上节课回顾与本课定位核心概念深度拆解2.1 为什么要混合检索？（两条腿走路）2.2 标准混合检索架构与工程实证2.3 RRF融合算法详解2.4 为什么需要重排序底层运…

2026/5/21 22:31:25 阅读更多

数据主权与跨境合规实战：从“写文档“到“系统强制约束“的落地指南

数据主权与跨境合规实战：从"写文档"到"系统强制约束"的落地指南前言 90%的跨境合规事故，都源于一个致命的错误：把合规当成了法务工作，而不是架构约束。我见过太多团队的跨境治理就是"文档工程"&a…

2026/5/21 22:31:25 阅读更多

运放电源端串联磁珠

在运放电源端串联磁珠，是一种常见的高频噪声抑制设计手段，但需结合具体应用场景谨慎使用。以下是关键要点：---作用与目的 - 抑制高频噪声：磁珠对高频信号（通常 >10 MHz）呈现高阻抗，将电源线上…

2026/5/21 22:28:43 阅读更多

意识的“调谐客观还原”理论

“调谐客观还原”理论，通常称为 Orch-OR，是诺贝尔物理学奖得主罗杰彭罗斯与麻醉学家斯图尔特哈梅罗夫于20世纪90年代初提出的一种极具争议的意识假说。该理论的核心观点是：意识并非产生于神经元之间的经典电化学连接，而是源于神经…

2026/5/21 22:28:43 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…