ICLR 2026 | 多模态训练遇梯度冲突？Uni-X探索纯自回归原生多模态架构

发布时间：2026/5/27 18:59:56

我们关于统一多模态生成与理解模型Unified Multimodal ModelsUMMs架构探索的论文 Uni-X 被 ICLR 2026 接收。在该工作中我们在最简洁的自回归AutoregressiveAR范式下尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。简单来说我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。论文标题Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models论文链接https://openreview.net/forum?idIJLIYpCkwz代码链接https://github.com/CURRENTF/Uni-XHuggingFace链接https://huggingface.co/JitaiHao/Uni-X-3BMotivation模态间梯度冲突将视觉输入通过向量量化Vector Quantization转化为离散 Token从而将文本和视觉统一为单一序列进行预测是目前构建 AR UMMs 的主流思路。然而通过实验分析我们发现使用一个完全共享参数的标准 Transformer 在处理这种多模态输入时会遭遇严重的“梯度冲突”Gradient Conflict。〓标准 Transformer 的 FFN 下采样权重梯度冲突分析。浅层和深层的梯度冲突极为剧烈而在中间层有所缓解。应用 Uni-X 结构后梯度冲突得到了进一步地缓解。为了精确描述这一现象我们定义了层级的梯度冲突指标。通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度并减去模型在混合模态数据分布下的基线梯度相似度我们得到冲突来源底层表示的信息熵差异为什么会出现这种现象我们尝试从信息论角度提供一个解释VQ 得到的视觉序列与于自然语言的差异极大。我们计算了基于 N-gram 的条件熵结果表明视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列的预测难度更大需要模型建模更长程、空间纠缠更深的依赖关系。〓视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言当单一网络强制同时处理低熵的语法化文本和高熵的空间化视觉时模型的浅层负责底层特征提取和深层负责目标分布预测会被迫调和截然不同的底层统计特性从而引发强烈的梯度拉扯。相反在网络的中间层特征表征逐渐抽象化和语义化模态间的对齐变得更加自然冲突显著减小。Uni-X基于上述底层逻辑我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构而是让模型架构的物理设计去贴合不同模态的固有特性。我们提出了 Uni-X一种“两端分离、中间共享”的 X 型架构〓 Uni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突同时依靠共享核心实现了特征对齐。分离层Separated Layers将 Transformer 的初始层和最后层拆分为平行的模态专用分支。这保证了在早期特征提取和最终 Token 投射阶段文本和视觉信息能够被独立处理彻底隔绝底层分布差异带来的优化冲突。共享层Shared Layers中间层保持参数共享专注于高维语义的跨模态融合与推理。和 Encoder/Decoder 的关系我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发我们希望分离层能分别起到 Encoder 和 Decoder 的作用由于时间和资源限制我们没有进行相关分析实验。一个有趣的探索是直接拿出浅分离层作为双塔模型能不能有一个还不错的检索性能理论计算效率的额外增益除了优化上的优势由于分离层中视觉和文本处于严格隔离的计算流对于长度为的序列其中视觉 Token 长文本 Token 长自注意力机制的计算复杂度从全共享的下降到了与成正比。这意味着在同等参数规模下Uni-X 的训练和推理吞吐量具有更高的理论上限。实验结果我们在一致训练预算下进行实验对比Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力图像生成与理解在未引入额外语义 Encoder 的前提下模型在 GenEval 基准测试中达到了 82 分的优异成绩匹配甚至超越了一些 7B 规模的自回归 UMMs。图像编辑Zero-Shot 泛化在仅使用约 90k 图像编辑数据微调的情况下Uni-X 凭借中间共享层积累的强大语义对齐能力在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。Future Work不依赖外部视觉特征提取器CLIP确实在一定程度上限制了极致的多模态理解上限。但我们计划进一步探索未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件如果让 Uni-X 架构中 “X” 的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

AI率从68%降到6%是怎么做到的？嘎嘎降AI双引擎原理解析

用了降AI工具，反复改，还是过不了。这种情况很多人都遇到过，但真正知道原因的人不多。这篇分析一下为什么降AI容易失败，以及对应的解法。降AI失败的根本原因原因一：只改了表面，没改结构大多数工具只做…

2026/5/26 14:38:14 阅读更多

STM32 FATFS优化实战：精简Flash与RAM占用的三大策略

1. FATFS模块裁剪：从170KB到10KB的瘦身秘诀第一次在STM32F103C8T6这类Flash只有64KB的芯片上移植FATFS时，编译完我就傻眼了——cc936.c这个文件单独就吃掉了170KB空间！相信很多朋友都遇到过类似的困扰。今天我就来分享如何通过精准"手术…

2026/5/27 11:30:32 阅读更多

WaveView终极指南：3步打造Android动态波形进度条

WaveView终极指南：3步打造Android动态波形进度条【免费下载链接】WaveView A wave view of android,can be used as progress bar. 项目地址: https://gitcode.com/gh_mirrors/wave/WaveView 想象一下，当你打开音乐播放器时，看到的不…

2026/5/27 10:02:09 阅读更多

信创项目招投标全攻略：Agent产品准入资质要求与国产化落地路径解析

站在2026年这个信息技术应用创新（以下简称“信创”）向全行业深水区迈进的关键时间点，Agent产品（人工智能智能体）已从单纯的技术热点转变为企业数字化转型的核心底座。根据2025年5月26日最新的信创市场动态显示&#xf…

2026/5/27 18:58:51 阅读更多

AI编码助手成本优化：15个专业代理与17个钩子构建高效开发管道

1. 项目概述：当AI编码助手成为“吞金兽”如果你和我一样，深度依赖Claude Code这类AI编码助手来提升开发效率，那你大概率也经历过那种“甜蜜的烦恼”：看着它流畅地生成代码、重构模块、甚至编写测试，感觉生产力爆棚&…

2026/5/27 18:58:27 阅读更多

你的电脑是无线电世界的大门吗？SDR++带你探索频谱的无限可能

你的电脑是无线电世界的大门吗？SDR带你探索频谱的无限可能【免费下载链接】SDRPlusPlus Cross-Platform SDR Software 项目地址: https://gitcode.com/GitHub_Trending/sd/SDRPlusPlus 想象一下，你的电脑不再只是处理文档和浏览网页的工具&#…

2026/5/27 18:58:26 阅读更多

构建AI智能体动态记忆系统：从经验压缩到知识图谱的工程实践

1. 项目概述：当AI学会“遗忘”最近在折腾AI智能体（Agent）项目时，我遇到了一个几乎所有开发者都会头疼的问题：随着智能体运行时间增长，它的“记忆”越来越臃肿。每次调用大模型（LLM）时…

2026/5/27 18:58:01 阅读更多

探索OpCore Simplify：自动化OpenCore EFI配置的艺术

探索OpCore Simplify：自动化OpenCore EFI配置的艺术【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 你是否曾为Hackintosh配置过程中的复杂…

2026/5/27 18:57:13 阅读更多

数据库性能调优：提升数据库响应速度和吞吐量

数据库性能调优：提升数据库响应速度和吞吐量一、数据库性能调优概述 1.1 数据库性能调优的定义数据库性能调优是指通过分析和优化数据库配置、查询语句和架构设计，以提升数据库响应速度和吞吐量的过程。它涉及索引优化、查询优化、配置调整等多个方面。…

2026/5/27 18:56:27 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章