核心结论所谓“多模态诅咒”不是玄学而是文本大模型接入视觉后同时遇到的信息密度错位、参数容量竞争、跨模态对齐污染和视觉 token 稀释注意力。前沿模型正在通过原生多模态预训练、MoE 解耦和推理型视觉理解把它打破但对中小模型和微调团队来说它仍然是必须正面处理的工程问题。第 0 层30 秒理解从 2023 年开始很多团队都观察到一个反直觉现象把纯文本 LLM 升级成 VLM 以后模型会看图了但在数学推理、代码生成、逻辑推理、纯文本问答上反而掉分。行业里常把它叫作“多模态诅咒”或“模态对齐税”。这不是因为视觉能力天然伤害语言能力而是因为早期做法经常是预训练好的视觉编码器 投影层 预训练好的文本 LLM 少量多模态微调这条路线成本低、见效快但它默认了一个很强的假设只要把视觉特征投影成类似 token 的东西语言模型就能自然使用它。实际情况没那么简单。视觉信号和文本信号的统计结构完全不同强行对齐会让原本训练好的语言表示发生偏移。需要先把三个判断分开判断更准确的说法多模态一定让文本能力下降不一定。前沿模型已经通过架构和训练方式大幅缓解部分报告声称基本消除了相对单模态模型的退化只要模型够大就能解决规模有帮助但不是全部。数据配比、路由、token 压缩和推理预算都很关键这个问题已经过时对万亿级原生多模态模型可能不再是主矛盾但对 7B/13B 模型、LoRA 微调、行业私有 VLM 仍然很现实理解这个问题的价值不在于复述一个旧结论而在于解释为什么 2025 年之后的解法有效以及为什么资源有限的团队不能直接照抄前沿模型的乐观结论。第 1 层诅咒的本质是四重打击1. 信息密度不对等视觉进入文本空间时会带来噪声文本是人类长期压缩出来的高密度符号系统。一句话可以同时携带时间、主体、动作、因果和抽象关系。例如“红队在第二轮反超”已经把场景、事件顺序和比较关系都压缩进了几个 token。图像不是这样。一张图片有几百万像素其中大量信息是光照、纹理、边缘、阴影、局部颜色和背景细节。它们对识别有用但对数学、代码、符号推理未必有用。问题不在于视觉信息低级而在于早期 VLM 往往把大量低级视觉特征直接投影到语言模型的 token 空间里。对一个主要在文本分布上训练出来的解码器来说这些 embedding 很容易落在语言流形之外。模型后续做推理时相当于要在大量不相关视觉细节中提取少量高阶语义。因此多模态诅咒的第一层是信息论问题视觉原始信号的体量很大但能直接参与语言推理的有效语义密度不够高。2. 参数容量零和博弈固定容量里多了一个任务世界一个 7B 纯文本模型绝大部分参数都服务于语言建模、知识记忆、代码模式和推理格式。加上视觉能力以后模型还要学习空间关系、物体边界、纹理、版面、图表、OCR 和多图关系。如果总参数量不变训练数据又不足能力之间就会开始竞争。视觉能力不是免费长出来的它会占用表示空间和优化预算。这个问题在中小模型上尤其明显模型越小参数越像一块有限的蛋糕多一种模态就多一组人来分。这也是为什么很多强 VLM 在视觉问答榜单上看起来不错但一放到纯文本数学或代码任务上会比同底座 LLM 弱一截。它不是“不会推理”而是原本属于文本推理的容量和训练信号被分流了。3. 跨模态对齐污染微调会扭曲原来的文本权重早期路线通常先拿一个视觉编码器再用投影层把视觉 embedding 接到 LLM 上。第一阶段可以冻结 LLM只训练投影层但为了获得更强的多模态融合第二阶段往往会打开更多 LLM 参数做指令微调。这一步风险很大。视觉 embedding 空间和文本 token 空间是异构的微调为了让二者能对齐会把 LLM 的注意力、MLP 和表示边界往视觉任务上拉。如果图文数据比例过高、纯文本 replay 不够、学习率过大原本精细训练出的文本能力就会被污染。这个现象和持续学习里的灾难性遗忘很像模型学会了新任务却损伤了旧任务。区别是多模态里遗忘的不是一个普通任务而是整个语言模型的基本盘。4. 视觉 token 稀释注意力上下文窗口被大量冗余 token 挤占图片进入 Transformer 后不是一张“图片”而是一串视觉 token。一个中等分辨率图像可能带来几百个 token多图输入、动态分辨率、长视频会把这个数量推到几千甚至更多。自注意力里所有 token 都参与交互sequence text_tokens vision_tokens attention_scores: [sequence_length, sequence_length]当大量视觉 token 涌入上下文模型不仅计算更贵关键文本指令也更容易被稀释。尤其是在长视频和多图推理里很多视觉 token 只是重复背景、相似帧和局部纹理却和用户真正关心的问题没有关系。所以第四重打击不是单纯的“token 多”而是“低价值 token 占据了高价值注意力位置”。第 2 层第一次范式跳跃先学会少受伤2023 到 2024 年行业的第一反应不是彻底解决诅咒而是承认它存在然后用工程手段控制损失。最典型的做法有两类。第一类是数据配比。多模态训练阶段不能只喂图文数据还要持续混入足够多的纯文本、代码和数学数据把语言能力拉住。DeepSeek-VL 一代报告里明确强调预训练阶段至少保留 70% 语言数据后续 DeepSeek-VL2 进入 MoE 路线后配比变成约 70% VL 数据加 30% text-only 数据。这说明比例不是固定教条而是服务于一个目标防止文本基本盘被多模态训练冲垮。第二类是冻结策略。LLaVA 这条路线的关键工程选择是先冻结视觉编码器和语言模型只训练一个视觉到语言的投影矩阵。这样做可以让视觉特征先适配语言空间降低对 LLM 主体权重的扰动。这阶段的核心思想可以概括为不要让视觉训练直接冲击语言模型的全部权重。这种做法有效但天花板也明显。冻结能减少污染也限制了深度融合文本 replay 能止血但不能让视觉变成推理增益。模型会看图但更多是在“语言模型旁边挂了一个视觉接口”还不是从内部统一理解多模态世界。第 3 层第二次范式跳跃从外挂视觉到原生多模态2024 到 2025 年路线开始变化不要在一个已经训练完成的文本 LLM 上强行外挂视觉而是从一开始就让模型原生容纳多模态。关键做法有两个。1. 联合预训练让参数空间从一开始就容纳多模态后融合路线的问题是文本模型的参数空间已经被语言任务塑形完成视觉后来进入时只能“挤进去”。联合预训练的思路则相反在模型还没有完全被文本占满之前就让文本、图像、视频、语音等信号一起参与训练。ERNIE 5.0 报告把这类问题称为多模态能力跷跷板并强调从零开始同步训练所有模态以缓解后融合方法里的互相伤害。这里的关键不是某个具体模型名字而是一条架构原则如果你希望模型最终原生多模态就不要把多模态当成后期补丁。2. MoE 解耦让不同模态不再争同一组参数混合专家架构的价值在多模态里不仅是省算力更是解耦能力。文本 token 可以更多激活语言专家视觉 token 可以更多激活视觉或跨模态专家。不同模态不必在每一步都争同一套稠密参数。这样做直接回应了第二重打击参数容量不再是完全零和。总参数量可以很大但每个 token 只激活其中一部分模型获得了更大的能力池又不必让所有模态都共享同一条计算路径。DeepSeek-VL2 这类 MoE VLM、ERNIE 5.0 这类统一多模态路线都在回答同一个问题不是把视觉塞进语言模型而是重新设计一个能容纳多模态的模型。不过这一阶段仍然没有完全解决所有问题。信息密度错位依然存在视觉 token 稀释注意力也依然存在。模型能更好地容纳视觉但不一定已经学会把视觉压缩成高密度逻辑表示。第 4 层第三次范式跳跃推理型多模态把视觉变成增益2025 到 2026 年更重要的变化发生在推理范式上模型不再把视觉 token 浅层编码后直接扔进生成过程而是在输出前投入更多计算把视觉输入消化成结构化、高密度的语义表示。这一步重新定义了视觉的价值。视觉信息密度低不等于视觉没有推理价值。UI 截图、图表、架构图、流程图、数学草稿、代码运行界面本身都含有丰富的结构关系。过去的问题是模型没有花足够计算量去提取这些高阶关系。推理型多模态模型的做法更像这样视觉输入 - 感知与定位 - OCR / 版面 / 对象关系 / 图表结构 - 高密度中间表示 - 逻辑推理、工具调用、代码生成、任务执行Qwen3-Omni 报告提出 Thinker-Talker 架构Thinker 统一接收文本、图像、音频和视频输入并负责推理Talker 负责流式语音输出。这条路线的重点是把多模态理解放进推理核心而不是把视觉当成语言模型外部的附件。报告还声称在相对于同系列单模态模型的文本和视觉能力上基本没有退化。到 2026 年 4 月Qwen3.5-Omni 又把这条线往前推了一步报告强调 Hybrid Attention、Thinking-MoE 和超长多模态上下文目标是在文本、视觉、音频、视频之间减少互相伤害。到 2026 年 6 月Qwen3.7-Plus 的公开资料进一步把多模态能力和 agent 能力绑定在一起强调从视觉感知走向深度逻辑推理并把 GUI、CLI、代码和工作流自动化连成闭环。Qwen-VLA 则把问题从“理解多模态世界”推进到“在环境中行动”说明视觉能力正在进入执行闭环。Google 侧也已经不只停留在 Gemini 2.5 Pro。Gemini 3.1 Pro 和 I/O 2026 公开资料里的 Gemini 3.x 系列继续强调 advanced reasoning、native multimodality 和 agentic workflows。OpenAI 的 GPT-5.4/GPT-5-Codex、Anthropic 的 Claude Opus 4.8 也把视觉、代码、电脑使用和长任务 agent 连得更紧。它们不一定都提供“相对单模态无退化”的严格技术报告但共同指向一个趋势多模态能力正在成为 agent 编程和工作流自动化的核心输入而不是聊天模型的附属功能。这里还要单独说明 DeepSeek V4。DeepSeek 在 2026 年 4 月发布 V4 Preview官方重点放在 1M 上下文、token-wise compression、agentic coding、structured data analysis 和前端能力上。它很重要但不能直接作为“视觉多模态诅咒已被打破”的证据因为官方资料没有把它定位成视觉多模态 VLM。它对本文的启发在另一层长上下文压缩、稀疏注意力和 agentic 推理同样是在解决“低价值 token 不要淹没高价值推理”的问题。这说明多模态正在从负担变成飞轮。当模型能把视觉中的结构关系提炼出来视觉就不只是干扰项而是推理的信息源。一个 UI 截图可能比一段文字描述更准确一张架构图可能比几百字需求更直接一个报错页面可能把环境状态、输入输出和失败位置同时呈现出来。关键转折点是浅层视觉编码低密度 token 直接进入推理容易稀释注意力 推理型视觉理解先压缩成高密度语义再参与逻辑推理第 5 层这对中小团队意味着什么前沿模型正在打破多模态诅咒但这不意味着每个团队都可以忽略它。现实情况是大多数团队做的是 7B、13B、34B 级别模型微调或者在开源 VLM 上做行业适配。这时多模态诅咒仍然会以很具体的方式出现。1. 如果你在微调开源 VLM数据配比是第一道防线不要只用图文问答、截图问答、OCR 数据去训。你需要持续混入纯文本指令、代码、数学和领域文本数据并在训练过程中监控文本任务。更实用的做法是风险防御方式文本能力下降保留 text-only replay训练前后跑同一组文本基准LLM 权重被污染先冻结 LLM只训 projector/adapter必要时再小学习率解冻图文数据风格单一混入不同分辨率、不同任务形态和负样本避免模型只学会模板回答只看多模态榜单同时评估数学、代码、长文理解、领域问答和拒答能力2. 如果你训练中小规模多模态模型容量隔离不是可选项小模型没有足够容量让所有能力共享同一套稠密参数。能做 MoE 就做 MoE做不了完整 MoE也要尽量用 adapter、LoRA 分组、模态专用 projector、分阶段解冻等方式减少互相污染。核心原则是不要让视觉任务用同样的学习率、同样的路径、同样的参数去冲击整个语言模型。3. 如果你做长视频或多图推理视觉 token 压缩决定上限长视频不是把每一帧都塞进模型。多图也不是把所有 patch 原样展开。工程上必须先做压缩关键帧采样 - 局部高分辨率裁剪 - 查询相关 token 选择 - 层级摘要 - LLM 推理视觉 token 预算要围绕问题分配而不是围绕原始像素平均分配。很多失败不是模型不聪明而是输入里 90% token 都和问题无关。4. 如果你做 agent视觉能力应该进入执行闭环多模态 agent 的价值不是“描述截图”而是把视觉状态转成可执行动作。例如观察 GUI 状态 - 判断任务进度 - 调用 CLI 或浏览器 - 读取反馈 - 修正计划这类场景里视觉能力反而会反哺推理。因为屏幕、图表和运行结果提供了文本日志之外的状态证据。多模态不再是额外接口而是 agent 判断世界状态的一部分。结语多模态诅咒的本质是四重打击叠加信息密度不对等引入噪声参数容量竞争造成零和博弈跨模态对齐污染文本权重视觉 token 稀释关键注意力。行业打破它经历了三次范式跳跃第一阶段靠数据配比和冻结策略少交税第二阶段靠原生联合预训练和 MoE 解耦避免互相伤害第三阶段靠推理型多模态把视觉压缩成高密度逻辑表示让不同模态开始互相增强。对前沿模型来说多模态正在从拖累变成增益。对中小模型和微调场景来说诅咒还没有自动消失。真正有用的做法不是相信某个榜单结论而是理解每一层机制然后在数据、参数、token 和推理预算上做针对性防御。参考资料LLaVA: Visual Instruction TuningVILA: On Pre-training for Visual Language ModelsDeepSeek-VL: Towards Real-World Vision-Language UnderstandingDeepSeek-VL2: Mixture-of-Experts Vision-Language ModelsTraining-Free Mitigation of Language Ability Forgetting in VLMsQwen3-Omni Technical ReportQwen3.5-Omni Technical ReportERNIE 5.0 Technical ReportQwen3.7-Plus: Multimodal Agent IntelligenceQwen-VLA: From Understanding the World to Acting in ItDeepSeek V4 Preview ReleaseGemini 3.1 Pro: Updates to Gemini 3Google I/O 2026 developer highlightsOpenAI model release notesClaude Opus 4.8
多模态诅咒:为什么大模型会看图以后,文本推理反而变弱
发布时间:2026/6/4 22:08:18
核心结论所谓“多模态诅咒”不是玄学而是文本大模型接入视觉后同时遇到的信息密度错位、参数容量竞争、跨模态对齐污染和视觉 token 稀释注意力。前沿模型正在通过原生多模态预训练、MoE 解耦和推理型视觉理解把它打破但对中小模型和微调团队来说它仍然是必须正面处理的工程问题。第 0 层30 秒理解从 2023 年开始很多团队都观察到一个反直觉现象把纯文本 LLM 升级成 VLM 以后模型会看图了但在数学推理、代码生成、逻辑推理、纯文本问答上反而掉分。行业里常把它叫作“多模态诅咒”或“模态对齐税”。这不是因为视觉能力天然伤害语言能力而是因为早期做法经常是预训练好的视觉编码器 投影层 预训练好的文本 LLM 少量多模态微调这条路线成本低、见效快但它默认了一个很强的假设只要把视觉特征投影成类似 token 的东西语言模型就能自然使用它。实际情况没那么简单。视觉信号和文本信号的统计结构完全不同强行对齐会让原本训练好的语言表示发生偏移。需要先把三个判断分开判断更准确的说法多模态一定让文本能力下降不一定。前沿模型已经通过架构和训练方式大幅缓解部分报告声称基本消除了相对单模态模型的退化只要模型够大就能解决规模有帮助但不是全部。数据配比、路由、token 压缩和推理预算都很关键这个问题已经过时对万亿级原生多模态模型可能不再是主矛盾但对 7B/13B 模型、LoRA 微调、行业私有 VLM 仍然很现实理解这个问题的价值不在于复述一个旧结论而在于解释为什么 2025 年之后的解法有效以及为什么资源有限的团队不能直接照抄前沿模型的乐观结论。第 1 层诅咒的本质是四重打击1. 信息密度不对等视觉进入文本空间时会带来噪声文本是人类长期压缩出来的高密度符号系统。一句话可以同时携带时间、主体、动作、因果和抽象关系。例如“红队在第二轮反超”已经把场景、事件顺序和比较关系都压缩进了几个 token。图像不是这样。一张图片有几百万像素其中大量信息是光照、纹理、边缘、阴影、局部颜色和背景细节。它们对识别有用但对数学、代码、符号推理未必有用。问题不在于视觉信息低级而在于早期 VLM 往往把大量低级视觉特征直接投影到语言模型的 token 空间里。对一个主要在文本分布上训练出来的解码器来说这些 embedding 很容易落在语言流形之外。模型后续做推理时相当于要在大量不相关视觉细节中提取少量高阶语义。因此多模态诅咒的第一层是信息论问题视觉原始信号的体量很大但能直接参与语言推理的有效语义密度不够高。2. 参数容量零和博弈固定容量里多了一个任务世界一个 7B 纯文本模型绝大部分参数都服务于语言建模、知识记忆、代码模式和推理格式。加上视觉能力以后模型还要学习空间关系、物体边界、纹理、版面、图表、OCR 和多图关系。如果总参数量不变训练数据又不足能力之间就会开始竞争。视觉能力不是免费长出来的它会占用表示空间和优化预算。这个问题在中小模型上尤其明显模型越小参数越像一块有限的蛋糕多一种模态就多一组人来分。这也是为什么很多强 VLM 在视觉问答榜单上看起来不错但一放到纯文本数学或代码任务上会比同底座 LLM 弱一截。它不是“不会推理”而是原本属于文本推理的容量和训练信号被分流了。3. 跨模态对齐污染微调会扭曲原来的文本权重早期路线通常先拿一个视觉编码器再用投影层把视觉 embedding 接到 LLM 上。第一阶段可以冻结 LLM只训练投影层但为了获得更强的多模态融合第二阶段往往会打开更多 LLM 参数做指令微调。这一步风险很大。视觉 embedding 空间和文本 token 空间是异构的微调为了让二者能对齐会把 LLM 的注意力、MLP 和表示边界往视觉任务上拉。如果图文数据比例过高、纯文本 replay 不够、学习率过大原本精细训练出的文本能力就会被污染。这个现象和持续学习里的灾难性遗忘很像模型学会了新任务却损伤了旧任务。区别是多模态里遗忘的不是一个普通任务而是整个语言模型的基本盘。4. 视觉 token 稀释注意力上下文窗口被大量冗余 token 挤占图片进入 Transformer 后不是一张“图片”而是一串视觉 token。一个中等分辨率图像可能带来几百个 token多图输入、动态分辨率、长视频会把这个数量推到几千甚至更多。自注意力里所有 token 都参与交互sequence text_tokens vision_tokens attention_scores: [sequence_length, sequence_length]当大量视觉 token 涌入上下文模型不仅计算更贵关键文本指令也更容易被稀释。尤其是在长视频和多图推理里很多视觉 token 只是重复背景、相似帧和局部纹理却和用户真正关心的问题没有关系。所以第四重打击不是单纯的“token 多”而是“低价值 token 占据了高价值注意力位置”。第 2 层第一次范式跳跃先学会少受伤2023 到 2024 年行业的第一反应不是彻底解决诅咒而是承认它存在然后用工程手段控制损失。最典型的做法有两类。第一类是数据配比。多模态训练阶段不能只喂图文数据还要持续混入足够多的纯文本、代码和数学数据把语言能力拉住。DeepSeek-VL 一代报告里明确强调预训练阶段至少保留 70% 语言数据后续 DeepSeek-VL2 进入 MoE 路线后配比变成约 70% VL 数据加 30% text-only 数据。这说明比例不是固定教条而是服务于一个目标防止文本基本盘被多模态训练冲垮。第二类是冻结策略。LLaVA 这条路线的关键工程选择是先冻结视觉编码器和语言模型只训练一个视觉到语言的投影矩阵。这样做可以让视觉特征先适配语言空间降低对 LLM 主体权重的扰动。这阶段的核心思想可以概括为不要让视觉训练直接冲击语言模型的全部权重。这种做法有效但天花板也明显。冻结能减少污染也限制了深度融合文本 replay 能止血但不能让视觉变成推理增益。模型会看图但更多是在“语言模型旁边挂了一个视觉接口”还不是从内部统一理解多模态世界。第 3 层第二次范式跳跃从外挂视觉到原生多模态2024 到 2025 年路线开始变化不要在一个已经训练完成的文本 LLM 上强行外挂视觉而是从一开始就让模型原生容纳多模态。关键做法有两个。1. 联合预训练让参数空间从一开始就容纳多模态后融合路线的问题是文本模型的参数空间已经被语言任务塑形完成视觉后来进入时只能“挤进去”。联合预训练的思路则相反在模型还没有完全被文本占满之前就让文本、图像、视频、语音等信号一起参与训练。ERNIE 5.0 报告把这类问题称为多模态能力跷跷板并强调从零开始同步训练所有模态以缓解后融合方法里的互相伤害。这里的关键不是某个具体模型名字而是一条架构原则如果你希望模型最终原生多模态就不要把多模态当成后期补丁。2. MoE 解耦让不同模态不再争同一组参数混合专家架构的价值在多模态里不仅是省算力更是解耦能力。文本 token 可以更多激活语言专家视觉 token 可以更多激活视觉或跨模态专家。不同模态不必在每一步都争同一套稠密参数。这样做直接回应了第二重打击参数容量不再是完全零和。总参数量可以很大但每个 token 只激活其中一部分模型获得了更大的能力池又不必让所有模态都共享同一条计算路径。DeepSeek-VL2 这类 MoE VLM、ERNIE 5.0 这类统一多模态路线都在回答同一个问题不是把视觉塞进语言模型而是重新设计一个能容纳多模态的模型。不过这一阶段仍然没有完全解决所有问题。信息密度错位依然存在视觉 token 稀释注意力也依然存在。模型能更好地容纳视觉但不一定已经学会把视觉压缩成高密度逻辑表示。第 4 层第三次范式跳跃推理型多模态把视觉变成增益2025 到 2026 年更重要的变化发生在推理范式上模型不再把视觉 token 浅层编码后直接扔进生成过程而是在输出前投入更多计算把视觉输入消化成结构化、高密度的语义表示。这一步重新定义了视觉的价值。视觉信息密度低不等于视觉没有推理价值。UI 截图、图表、架构图、流程图、数学草稿、代码运行界面本身都含有丰富的结构关系。过去的问题是模型没有花足够计算量去提取这些高阶关系。推理型多模态模型的做法更像这样视觉输入 - 感知与定位 - OCR / 版面 / 对象关系 / 图表结构 - 高密度中间表示 - 逻辑推理、工具调用、代码生成、任务执行Qwen3-Omni 报告提出 Thinker-Talker 架构Thinker 统一接收文本、图像、音频和视频输入并负责推理Talker 负责流式语音输出。这条路线的重点是把多模态理解放进推理核心而不是把视觉当成语言模型外部的附件。报告还声称在相对于同系列单模态模型的文本和视觉能力上基本没有退化。到 2026 年 4 月Qwen3.5-Omni 又把这条线往前推了一步报告强调 Hybrid Attention、Thinking-MoE 和超长多模态上下文目标是在文本、视觉、音频、视频之间减少互相伤害。到 2026 年 6 月Qwen3.7-Plus 的公开资料进一步把多模态能力和 agent 能力绑定在一起强调从视觉感知走向深度逻辑推理并把 GUI、CLI、代码和工作流自动化连成闭环。Qwen-VLA 则把问题从“理解多模态世界”推进到“在环境中行动”说明视觉能力正在进入执行闭环。Google 侧也已经不只停留在 Gemini 2.5 Pro。Gemini 3.1 Pro 和 I/O 2026 公开资料里的 Gemini 3.x 系列继续强调 advanced reasoning、native multimodality 和 agentic workflows。OpenAI 的 GPT-5.4/GPT-5-Codex、Anthropic 的 Claude Opus 4.8 也把视觉、代码、电脑使用和长任务 agent 连得更紧。它们不一定都提供“相对单模态无退化”的严格技术报告但共同指向一个趋势多模态能力正在成为 agent 编程和工作流自动化的核心输入而不是聊天模型的附属功能。这里还要单独说明 DeepSeek V4。DeepSeek 在 2026 年 4 月发布 V4 Preview官方重点放在 1M 上下文、token-wise compression、agentic coding、structured data analysis 和前端能力上。它很重要但不能直接作为“视觉多模态诅咒已被打破”的证据因为官方资料没有把它定位成视觉多模态 VLM。它对本文的启发在另一层长上下文压缩、稀疏注意力和 agentic 推理同样是在解决“低价值 token 不要淹没高价值推理”的问题。这说明多模态正在从负担变成飞轮。当模型能把视觉中的结构关系提炼出来视觉就不只是干扰项而是推理的信息源。一个 UI 截图可能比一段文字描述更准确一张架构图可能比几百字需求更直接一个报错页面可能把环境状态、输入输出和失败位置同时呈现出来。关键转折点是浅层视觉编码低密度 token 直接进入推理容易稀释注意力 推理型视觉理解先压缩成高密度语义再参与逻辑推理第 5 层这对中小团队意味着什么前沿模型正在打破多模态诅咒但这不意味着每个团队都可以忽略它。现实情况是大多数团队做的是 7B、13B、34B 级别模型微调或者在开源 VLM 上做行业适配。这时多模态诅咒仍然会以很具体的方式出现。1. 如果你在微调开源 VLM数据配比是第一道防线不要只用图文问答、截图问答、OCR 数据去训。你需要持续混入纯文本指令、代码、数学和领域文本数据并在训练过程中监控文本任务。更实用的做法是风险防御方式文本能力下降保留 text-only replay训练前后跑同一组文本基准LLM 权重被污染先冻结 LLM只训 projector/adapter必要时再小学习率解冻图文数据风格单一混入不同分辨率、不同任务形态和负样本避免模型只学会模板回答只看多模态榜单同时评估数学、代码、长文理解、领域问答和拒答能力2. 如果你训练中小规模多模态模型容量隔离不是可选项小模型没有足够容量让所有能力共享同一套稠密参数。能做 MoE 就做 MoE做不了完整 MoE也要尽量用 adapter、LoRA 分组、模态专用 projector、分阶段解冻等方式减少互相污染。核心原则是不要让视觉任务用同样的学习率、同样的路径、同样的参数去冲击整个语言模型。3. 如果你做长视频或多图推理视觉 token 压缩决定上限长视频不是把每一帧都塞进模型。多图也不是把所有 patch 原样展开。工程上必须先做压缩关键帧采样 - 局部高分辨率裁剪 - 查询相关 token 选择 - 层级摘要 - LLM 推理视觉 token 预算要围绕问题分配而不是围绕原始像素平均分配。很多失败不是模型不聪明而是输入里 90% token 都和问题无关。4. 如果你做 agent视觉能力应该进入执行闭环多模态 agent 的价值不是“描述截图”而是把视觉状态转成可执行动作。例如观察 GUI 状态 - 判断任务进度 - 调用 CLI 或浏览器 - 读取反馈 - 修正计划这类场景里视觉能力反而会反哺推理。因为屏幕、图表和运行结果提供了文本日志之外的状态证据。多模态不再是额外接口而是 agent 判断世界状态的一部分。结语多模态诅咒的本质是四重打击叠加信息密度不对等引入噪声参数容量竞争造成零和博弈跨模态对齐污染文本权重视觉 token 稀释关键注意力。行业打破它经历了三次范式跳跃第一阶段靠数据配比和冻结策略少交税第二阶段靠原生联合预训练和 MoE 解耦避免互相伤害第三阶段靠推理型多模态把视觉压缩成高密度逻辑表示让不同模态开始互相增强。对前沿模型来说多模态正在从拖累变成增益。对中小模型和微调场景来说诅咒还没有自动消失。真正有用的做法不是相信某个榜单结论而是理解每一层机制然后在数据、参数、token 和推理预算上做针对性防御。参考资料LLaVA: Visual Instruction TuningVILA: On Pre-training for Visual Language ModelsDeepSeek-VL: Towards Real-World Vision-Language UnderstandingDeepSeek-VL2: Mixture-of-Experts Vision-Language ModelsTraining-Free Mitigation of Language Ability Forgetting in VLMsQwen3-Omni Technical ReportQwen3.5-Omni Technical ReportERNIE 5.0 Technical ReportQwen3.7-Plus: Multimodal Agent IntelligenceQwen-VLA: From Understanding the World to Acting in ItDeepSeek V4 Preview ReleaseGemini 3.1 Pro: Updates to Gemini 3Google I/O 2026 developer highlightsOpenAI model release notesClaude Opus 4.8