【导语当大家都在关注“AO”两家新模型大战时谷歌悄然推出DiffusionGemma将生成图片的扩散模型用于文字生成实现4倍加速引发行业关注。】DiffusionGemma文字生成的“印刷机”谷歌新模型DiffusionGemma直接抛弃传统自回归“逐Token生成”的打字机模式像“印刷机”一样工作。它一次铺开256个token的“画布”从随机噪声出发多轮去噪整段文字同时浮现。在生成速度方面DiffusionGemma成绩亮眼。单块H100上每秒1000 tokens消费级RTX 5090上700比同规格自回归模型快了4倍。而且这个26B参数的MoE模型推理时只激活3.8B参数量化后18GB显存就能装下一张4090就能本地跑。目前该模型采用允许商用的Apache 2.0开源协议权重可在Hugging Face直接下载。突破“内存带宽瓶颈”当前主流大模型如GPT、Claude、Gemini等底层都是自回归架构像打字机一样从左到右一个token一个token地敲出来每生成一个新词都要重新加载模型权重。在云端服务器可同时处理大量用户请求硬件利用率高但在本地跑模型时GPU大量算力空转存在“内存带宽瓶颈”。DiffusionGemma采用扩散模型其工作方式是一次性对一整块token同时操作天然“并行”。这让GPU一次性接到一大块并行计算任务Tensor Core火力全开计算瓶颈从“内存搬不过来”变成“算力够不够”而算力正是GPU所擅长的。具体来说DiffusionGemma的原理和Stable Diffusion类似先铺开256个token的画布多轮迭代去噪高置信度的token先锁定再用它们修正其余部分最终整段文字收敛为输出。双向注意力实时自我纠错除了速度快DiffusionGemma的双向注意力也值得关注。传统自回归模型只能往前看生成第N1个token时只能看到第1到第N个token。而DiffusionGemma的256个token同时生成每个token都能看到画布上所有其他token前后文同时可见。这使得DiffusionGemma具备实时自我纠错能力模型边生成边评估整段文字的一致性发现不对立刻修正。例如在数独任务中自回归模型做起来很困难而DiffusionGemma微调后成功率从0%飙到80%。在代码补全、行内编辑、复杂markdown格式化等需要前后文协调的场景中扩散模型更具结构性优势。速度与质量的平衡扩散模型存在速度和质量的平衡问题去噪步数越少速度越快但质量越差步数越多质量越好但速度优势越小。和同参数量的Gemma 4 26B A4B相比DiffusionGemma在多项基准上存在差距。谷歌推荐生产环境使用标准Gemma 4DiffusionGemma面向速度敏感的本地交互场景。谷歌并非第一个尝试验证扩散文本模型路线的此前Inception Labs发布过Mercury 2谷歌自己也曾展示过Gemini Diffusion实验。如今DiffusionGemma卷土重来且得到NVIDIA全线护航从模型到推理框架再到硬件生态都有足够支持。它能否挑战自回归模型的主流地位目前还不确定但谷歌已将这条路真正开源。编辑观点DiffusionGemma在文字生成速度上实现重大突破其双向注意力机制也带来新的能力。虽存在质量短板但开源模式有望推动其发展未来或在特定场景挑战自回归模型。
谷歌DiffusionGemma横空出世:文字生成4倍加速,挑战自回归模型主流地位?
发布时间:2026/6/12 0:27:55
【导语当大家都在关注“AO”两家新模型大战时谷歌悄然推出DiffusionGemma将生成图片的扩散模型用于文字生成实现4倍加速引发行业关注。】DiffusionGemma文字生成的“印刷机”谷歌新模型DiffusionGemma直接抛弃传统自回归“逐Token生成”的打字机模式像“印刷机”一样工作。它一次铺开256个token的“画布”从随机噪声出发多轮去噪整段文字同时浮现。在生成速度方面DiffusionGemma成绩亮眼。单块H100上每秒1000 tokens消费级RTX 5090上700比同规格自回归模型快了4倍。而且这个26B参数的MoE模型推理时只激活3.8B参数量化后18GB显存就能装下一张4090就能本地跑。目前该模型采用允许商用的Apache 2.0开源协议权重可在Hugging Face直接下载。突破“内存带宽瓶颈”当前主流大模型如GPT、Claude、Gemini等底层都是自回归架构像打字机一样从左到右一个token一个token地敲出来每生成一个新词都要重新加载模型权重。在云端服务器可同时处理大量用户请求硬件利用率高但在本地跑模型时GPU大量算力空转存在“内存带宽瓶颈”。DiffusionGemma采用扩散模型其工作方式是一次性对一整块token同时操作天然“并行”。这让GPU一次性接到一大块并行计算任务Tensor Core火力全开计算瓶颈从“内存搬不过来”变成“算力够不够”而算力正是GPU所擅长的。具体来说DiffusionGemma的原理和Stable Diffusion类似先铺开256个token的画布多轮迭代去噪高置信度的token先锁定再用它们修正其余部分最终整段文字收敛为输出。双向注意力实时自我纠错除了速度快DiffusionGemma的双向注意力也值得关注。传统自回归模型只能往前看生成第N1个token时只能看到第1到第N个token。而DiffusionGemma的256个token同时生成每个token都能看到画布上所有其他token前后文同时可见。这使得DiffusionGemma具备实时自我纠错能力模型边生成边评估整段文字的一致性发现不对立刻修正。例如在数独任务中自回归模型做起来很困难而DiffusionGemma微调后成功率从0%飙到80%。在代码补全、行内编辑、复杂markdown格式化等需要前后文协调的场景中扩散模型更具结构性优势。速度与质量的平衡扩散模型存在速度和质量的平衡问题去噪步数越少速度越快但质量越差步数越多质量越好但速度优势越小。和同参数量的Gemma 4 26B A4B相比DiffusionGemma在多项基准上存在差距。谷歌推荐生产环境使用标准Gemma 4DiffusionGemma面向速度敏感的本地交互场景。谷歌并非第一个尝试验证扩散文本模型路线的此前Inception Labs发布过Mercury 2谷歌自己也曾展示过Gemini Diffusion实验。如今DiffusionGemma卷土重来且得到NVIDIA全线护航从模型到推理框架再到硬件生态都有足够支持。它能否挑战自回归模型的主流地位目前还不确定但谷歌已将这条路真正开源。编辑观点DiffusionGemma在文字生成速度上实现重大突破其双向注意力机制也带来新的能力。虽存在质量短板但开源模式有望推动其发展未来或在特定场景挑战自回归模型。