我们关于统一多模态生成与理解模型Unified Multimodal ModelsUMMs架构探索的论文 Uni-X 被 ICLR 2026 接收。在该工作中我们在最简洁的自回归AutoregressiveAR范式下尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。简单来说我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。论文标题Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models论文链接https://openreview.net/forum?idIJLIYpCkwz代码链接https://github.com/CURRENTF/Uni-XHuggingFace链接https://huggingface.co/JitaiHao/Uni-X-3BMotivation模态间梯度冲突将视觉输入通过向量量化Vector Quantization转化为离散 Token从而将文本和视觉统一为单一序列进行预测是目前构建 AR UMMs 的主流思路。然而通过实验分析我们发现使用一个完全共享参数的标准 Transformer 在处理这种多模态输入时会遭遇严重的“梯度冲突”Gradient Conflict。〓 标准 Transformer 的 FFN 下采样权重梯度冲突分析。浅层和深层的梯度冲突极为剧烈而在中间层有所缓解。应用 Uni-X 结构后梯度冲突得到了进一步地缓解。为了精确描述这一现象我们定义了层级的梯度冲突指标。通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度并减去模型在混合模态数据分布下的基线梯度相似度我们得到 冲突来源底层表示的信息熵差异为什么会出现这种现象我们尝试从信息论角度提供一个解释VQ 得到的视觉序列与于自然语言的差异极大。我们计算了基于 N-gram 的条件熵结果表明视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列的预测难度更大需要模型建模更长程、空间纠缠更深的依赖关系。〓 视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言当单一网络强制同时处理低熵的语法化文本和高熵的空间化视觉时模型的浅层负责底层特征提取和深层负责目标分布预测会被迫调和截然不同的底层统计特性从而引发强烈的梯度拉扯。相反在网络的中间层特征表征逐渐抽象化和语义化模态间的对齐变得更加自然冲突显著减小。Uni-X基于上述底层逻辑我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构而是让模型架构的物理设计去贴合不同模态的固有特性。我们提出了 Uni-X一种“两端分离、中间共享”的 X 型架构〓 Uni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突同时依靠共享核心实现了特征对齐。分离层Separated Layers将 Transformer 的初始层和最后层拆分为平行的模态专用分支。这保证了在早期特征提取和最终 Token 投射阶段文本和视觉信息能够被独立处理彻底隔绝底层分布差异带来的优化冲突。共享层Shared Layers中间层保持参数共享专注于高维语义的跨模态融合与推理。和 Encoder/Decoder 的关系我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发我们希望分离层能分别起到 Encoder 和 Decoder 的作用由于时间和资源限制我们没有进行相关分析实验。一个有趣的探索是直接拿出浅分离层作为双塔模型能不能有一个还不错的检索性能理论计算效率的额外增益除了优化上的优势由于分离层中视觉和文本处于严格隔离的计算流对于长度为的序列其中视觉 Token 长文本 Token 长自注意力机制的计算复杂度从全共享的下降到了与成正比。这意味着在同等参数规模下Uni-X 的训练和推理吞吐量具有更高的理论上限。实验结果我们在一致训练预算下进行实验对比Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力图像生成与理解在未引入额外语义 Encoder 的前提下模型在 GenEval 基准测试中达到了 82 分的优异成绩匹配甚至超越了一些 7B 规模的自回归 UMMs。图像编辑Zero-Shot 泛化在仅使用约 90k 图像编辑数据微调的情况下Uni-X 凭借中间共享层积累的强大语义对齐能力在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。Future Work不依赖外部视觉特征提取器CLIP确实在一定程度上限制了极致的多模态理解上限。但我们计划进一步探索未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件如果让 Uni-X 架构中 “X” 的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·
ICLR 2026 | 多模态训练遇梯度冲突?Uni-X探索纯自回归原生多模态架构
发布时间:2026/5/27 18:59:56
我们关于统一多模态生成与理解模型Unified Multimodal ModelsUMMs架构探索的论文 Uni-X 被 ICLR 2026 接收。在该工作中我们在最简洁的自回归AutoregressiveAR范式下尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。简单来说我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。论文标题Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models论文链接https://openreview.net/forum?idIJLIYpCkwz代码链接https://github.com/CURRENTF/Uni-XHuggingFace链接https://huggingface.co/JitaiHao/Uni-X-3BMotivation模态间梯度冲突将视觉输入通过向量量化Vector Quantization转化为离散 Token从而将文本和视觉统一为单一序列进行预测是目前构建 AR UMMs 的主流思路。然而通过实验分析我们发现使用一个完全共享参数的标准 Transformer 在处理这种多模态输入时会遭遇严重的“梯度冲突”Gradient Conflict。〓 标准 Transformer 的 FFN 下采样权重梯度冲突分析。浅层和深层的梯度冲突极为剧烈而在中间层有所缓解。应用 Uni-X 结构后梯度冲突得到了进一步地缓解。为了精确描述这一现象我们定义了层级的梯度冲突指标。通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度并减去模型在混合模态数据分布下的基线梯度相似度我们得到 冲突来源底层表示的信息熵差异为什么会出现这种现象我们尝试从信息论角度提供一个解释VQ 得到的视觉序列与于自然语言的差异极大。我们计算了基于 N-gram 的条件熵结果表明视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列的预测难度更大需要模型建模更长程、空间纠缠更深的依赖关系。〓 视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言当单一网络强制同时处理低熵的语法化文本和高熵的空间化视觉时模型的浅层负责底层特征提取和深层负责目标分布预测会被迫调和截然不同的底层统计特性从而引发强烈的梯度拉扯。相反在网络的中间层特征表征逐渐抽象化和语义化模态间的对齐变得更加自然冲突显著减小。Uni-X基于上述底层逻辑我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构而是让模型架构的物理设计去贴合不同模态的固有特性。我们提出了 Uni-X一种“两端分离、中间共享”的 X 型架构〓 Uni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突同时依靠共享核心实现了特征对齐。分离层Separated Layers将 Transformer 的初始层和最后层拆分为平行的模态专用分支。这保证了在早期特征提取和最终 Token 投射阶段文本和视觉信息能够被独立处理彻底隔绝底层分布差异带来的优化冲突。共享层Shared Layers中间层保持参数共享专注于高维语义的跨模态融合与推理。和 Encoder/Decoder 的关系我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发我们希望分离层能分别起到 Encoder 和 Decoder 的作用由于时间和资源限制我们没有进行相关分析实验。一个有趣的探索是直接拿出浅分离层作为双塔模型能不能有一个还不错的检索性能理论计算效率的额外增益除了优化上的优势由于分离层中视觉和文本处于严格隔离的计算流对于长度为的序列其中视觉 Token 长文本 Token 长自注意力机制的计算复杂度从全共享的下降到了与成正比。这意味着在同等参数规模下Uni-X 的训练和推理吞吐量具有更高的理论上限。实验结果我们在一致训练预算下进行实验对比Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力图像生成与理解在未引入额外语义 Encoder 的前提下模型在 GenEval 基准测试中达到了 82 分的优异成绩匹配甚至超越了一些 7B 规模的自回归 UMMs。图像编辑Zero-Shot 泛化在仅使用约 90k 图像编辑数据微调的情况下Uni-X 凭借中间共享层积累的强大语义对齐能力在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。Future Work不依赖外部视觉特征提取器CLIP确实在一定程度上限制了极致的多模态理解上限。但我们计划进一步探索未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件如果让 Uni-X 架构中 “X” 的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·