字节:分层潜空间扩散范式ColaDLM 标题Continuous Latent Diffusion Language Model来源arXiv, 2605.06548v1️文章简介研究问题如何打破自回归模型固定的从左到右生成顺序限制同时兼顾生成效率、可扩展的表示学习以及有效的全局语义建模主要贡献论文提出了 ColaDLM一种分层连续潜空间扩散语言模型通过将文本生成分解为连续空间的全局语义先验建模和局部条件解码确立了优于传统 token 级建模的新范式。重点思路采用两阶段训练策略首先利用 Text VAE 学习文本到连续潜变量的稳定映射引入 BERT 风格损失以保持语义平滑性随后使用块因果 Diffusion Transformer (DiT) 在连续潜空间中对全局语义先验进行建模。提出“潜先验传输”概念从统一的马尔可夫路径视角出发将扩散过程定义为潜变量先验的传输而非 Token 级的观测恢复从而将全局语义组织与局部文本实现解耦。设计块因果注意力机制在 DiT 中保留块间的因果依赖以维持生成顺序同时允许块内进行双向注意力计算实现了非自回归的高效并行推理。构建联合演化训练目标让 VAE 编码器与 DiT 先验模型共同进化通过流匹配Flow Matching学习动态的连续潜分布而非固定静态的潜在表示。分析总结实验证实潜空间存在全局语义结构随着潜变量维度增加最优噪声时间偏移量呈现系统性漂移表明模型捕捉到了跨维度的共享语义信息。潜空间需动态演化且依赖良好初始化固定潜空间会导致性能过早饱和而从随机初始化开始联合训练易导致坍塌基于预训练 VAE 的联合演化策略效果最佳。生成质量与似然估计存在结构性错位较低的困惑度PPL并不必然对应更好的生成效果因为生成依赖于先验覆盖语义有效区域而 PPL 敏感于局部概率校准。具备优异的扩展性与多模态潜力在严格匹配的参数量下ColaDLM 在推理密集型任务上展现出比自回归和离散扩散模型更强的扩展曲线并能自然延伸至图文统一建模。个人观点论文不再将文本视为离散的 Token 序列直接建模而是将其映射为连续的层级潜变量。