研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。“把水果放进盘子里”——机器人看懂了指令开始执行却在最后关头抓偏了。这不是能力不够而是它在关键时刻“走神了”。至简动力、北大、港中文的研究团队发现VLA模型在深层动作预测时对关键视觉区域的依赖会持续下降。换句话说模型不是一开始看不清而是越到后面越容易“丢”掉关键视觉证据。研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。效果在仿真和真实任务中都有体现RLBench模拟器上平均成功率83%真实世界任务91.7%相比Pi0.5分别提升18%和7.5%。在未见过的背景和光照条件下性能依然稳定。近日至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、香港中文大学提出了DeepVision-VLA一种面向机器人操作的视觉增强VLA框架。研究核心目标不是简单再加一个视觉模块而是回答一个更本质的问题当VLA在深层动作决策时逐渐“看不清”关键目标能不能把高质量视觉信息重新注入进去围绕这个问题研究团队首先系统分析了多个代表性VLA模型内部的视觉利用机制发现其深层动作预测对关键视觉token的敏感性持续下降随后提出了Vision-Language Mixture-of-TransformersVL-MoT框架以及Action-Guided Visual PruningAGVP策略在保持计算开销可控的前提下让模型在关键时刻重新聚焦任务相关区域。最终DeepVision-VLA在仿真与真实机器人任务中都取得了显著提升在RLBench模拟器上达到83%平均成功率在真实世界任务中达到91.7%平均成功率相较于Pi0.5分别有18%和7.5%的成功率提升。△ 图1DeepVision-VLA整体框架示意图。(a)在原始VLA模型中模型对任务相关视觉token的依赖会随着层数加深而逐渐减弱从而导致深层动作预测对视觉信息的敏感性下降。(b)针对这一问题DeepVision-VLA提出视觉-语言混合Transformer框架将视觉基础模型的多层级视觉特征注入VLA主干网络深层以增强模型对精细复杂操作所需视觉信息的表征能力。(c)基于上述设计DeepVision-VLA在多项真实世界操作任务中取得了更优的性能。核心观察与研究动机过去很多工作都在增强VLA的视觉能力例如引入视觉提示、增加辅助视觉目标、融合更多模态信息或者通过未来状态建模提升动作生成效果。但这些方法大多默认了一件事只要视觉信息被编码进模型后续动作预测自然会持续利用这些视觉证据。这件事其实并不显然。VLA的动作生成通常依赖由多层Transformer堆叠而成的LLM backbone。从结构上看视觉信息往往只在前部进入模型随后需要随着层间传播不断参与后续动作预测。因此一个更本质的问题是视觉信息在VLA内部究竟是如何被利用的它会不会在深层逐渐被削弱为回答这个问题研究团队没有把VLA当作“黑盒”而是对其内部层级行为进行了系统分析。团队选择了三类具有代表性的VLA模型OpenVLAπQwenVLA-OFT它们覆盖了不同的LLM backbone、模型深度和动作生成范式。研究团队的目标不是比较谁更强而是回答一个更基础的问题当模型一层一层往后推理时动作预测到底还在多大程度上依赖任务相关视觉区域为了更准确地理解VLA的内部视觉利用机制团队设计了两个互补的probing实验一个用于观察不同层visual token对动作预测的贡献分布一个用于量化动作预测对任务关键视觉区域的敏感性这两个实验分别回答两个不同的问题模型在这一层“主要依赖图像中的哪里”如果把这些关键视觉区域拿掉动作预测到底会受到多大影响△ 图2VLA模型中视觉grounding的层间分析。上在不同层对ROI视觉token进行掩蔽时动作预测误差MSE的变化。在浅层掩蔽关键视觉token会显著恶化动作预测而这一影响在深层逐渐减弱。下不同层的Grad-CAM注意力可视化结果。浅层注意力主要聚焦于任务相关区域而在深层中逐渐趋于弥散说明模型对关键视觉区域的grounding能力随层数加深而减弱。实验一基于Grad-CAM的层级visual token贡献分析浅层动作表示仍然建立在较强的任务视觉grounding之上但到了深层动作预测对关键视觉证据的依赖开始减弱。换句话说问题不是模型完全“看不见”而是越到后面动作决策越不再强依赖最关键的视觉区域。实验二ROI visual token masking定量测量动作预测的视觉敏感性仅靠可视化还不够。贡献图可以显示“看起来模型在关注哪里”但它不能直接定量说明这些区域对动作预测究竟有多重要。因此团队进一步设计了一个更严格的层级干预实验ROI visual token masking。实验结果同样呈现出稳定一致的层级趋势在浅层mask掉ROI tokens会显著增大动作预测误差说明这些层高度依赖任务关键视觉信息随着层数加深这种影响持续减弱在更深层即使移除较大比例的ROI tokens动作预测变化也已经相对有限这一结果比单纯的可视化更进一步定量证明了任务相关视觉线索在VLA深层中被逐渐“低利用化”了。DeepVision-VLA即插即用框架基于上述分析团队的目标就变得非常明确既然问题出在深层动作预测对关键视觉区域不再敏感那么改进方向就不应只是增强输入视觉编码而应直接增强深层的视觉表征能力。基于这一思路研究团队提出DeepVision-VLA。其核心思想是在保留原始VLA结构的基础上引入一个更强的视觉专家并让它在深层与VLA backbone协同工作从而在最容易发生视觉退化的位置补充高质量视觉证据。整个方法由两个关键设计组成Vision-Language Mixture-of-TransformersVL-MoTAction-Guided Visual PruningAGVP△ 图3DeepVision-VLA框架概览。(a)通过所提出的视觉-语言混合TransformerVision–Language Mixture-of-TransformersVL-MoT框架将高分辨率视觉专家与LLM主干网络进行耦合其中LLM深层与视觉专家共享注意力从而增强动作预测中的视觉grounding能力。(b)利用LLM浅层的action-to-vision注意力聚合得到任务相关区域并在特征融合前据此对视觉专家token进行剪枝。(c)视觉专家token采用双向注意力机制以保留其预训练表征能力VLA token对prompt token采用因果注意力对action token采用双向注意力以支持并行的动作预测。VL-MoT深层特征建立共享注意力该方法建立在自定义基线QwenVLA-OFT之上。在此基础上团队引入一个高分辨率视觉专家DINOv3并提出Vision-Language Mixture-of-TransformersVL-MoT。它的核心不是把视觉专家特征直接拼接到输入而是让视觉专家和VLA深层在attention层面进行更紧密的协同。具体来说VL-MoT将视觉专家的多层特征与VLA深层进行对齐并在深层模块中引入Vision-Language Shared Attention。在这一机制下VLA深层可以直接访问来自视觉专家的高质量视觉表征视觉专家分支仍保持自己的表示能力不会被简单拼接后淹没视觉增强被精准地放在“最需要它的深层动作预测阶段”而不是停留在浅层输入级融合这也是VL-MoT与常见早期融合方式的根本区别。问题不只是“有没有用额外视觉特征”而是这些特征有没有在正确的位置、以正确的方式参与动作生成。AGVP让VLA浅层的有效grounding来指导深层视觉筛选尽管高分辨率视觉专家能够提供更强表征但如果把全部token全部送入深层也会带来两个问题大量背景与无关区域会引入噪声计算成本会迅速增加因此团队进一步提出Action-Guided Visual PruningAGVP。AGVP的核心思想来自前面的probing结果虽然深层视觉敏感性下降但浅层仍保留着较强的任务视觉grounding。因此研究团队利用浅层的action-to-vision响应来估计“当前动作真正关心哪些视觉区域”。具体来说AGVP会从若干浅层提取action-conditioned的视觉响应图对这些浅层结果进行聚合将聚合后的相关性映射到视觉专家的高分辨率token空间只保留top-K最相关tokens再送入深层模块这样一来深层获得的不是“整张图的全部视觉信息”而是由浅层动作grounding筛选过的高价值视觉证据。这一步非常关键它不仅降低了冗余和计算开销也使视觉增强真正与“当前动作需要什么”对齐。实验结果仿真实验团队在RLBench的10个机器人操作任务上系统评估了DeepVision-VLA。结果显示模型达到83%的平均成功率并显著超过多种代表性基线。更重要的是这种提升在视觉要求更高的任务中尤其明显。例如需要更强空间定位能力和交互判断能力的任务性能提升往往比平均提升还要更大。这说明DeepVision-VLA并不是简单提高平均分而是真正增强了模型在复杂视觉场景中的操作能力。△ 表1DeepVision-VLA与各基线方法在RLBench上的性能对比。所有方法均在多任务设置下进行训练评价指标为平均成功率真机实验△ 图5真实世界单臂机器人任务执行过程可视化从左到右。在真实世界实验中团队基于真实机器人平台评估了多项复杂操作任务例如抓取放置、堆叠、书写和倒液体等。这些任务不仅要求识别目标还要求模型持续跟踪边界、相对位置以及机械臂与物体之间的交互关系。最终DeepVision-VLA在真实世界任务中取得了91.7%的平均成功率展现出更强的精细操作能力和执行稳定性。这一结果说明深层视觉增强不仅在仿真里有效也能迁移到真实世界复杂操作中。△ 表2不同真实世界操作任务上的性能对比。Step表示整体任务中的原子子任务Avg表示平均成功率。该方法基于QwenOFT-VLA构建。泛化实验为了验证方法是否真正提升了视觉建模能力团队进一步测试了零样本泛化性能重点考察两类常见扰动未见背景未见光照条件结果显示DeepVision-VLA在这些扰动下仍能保持更稳定的操作表现。这表明该方法增强的不只是任务记忆而是模型对任务关键视觉结构的稳定提取能力。也就是说DeepVision-VLA带来的不是“在固定环境里做得更熟练”而是环境变了模型依然更容易看对关键区域。△ 表3泛化场景示意图。图中展示了未见测试条件其中Background和Lighting分别表示新的环境布局和变化的光照条件。DeepVision-VLA在这些扰动下仍表现出稳健的视觉增强能力并能够保持精确的操作性能。论文链接https://arxiv.org/pdf/2603.15618v1项目主页https://deepvision-vla.github.io/
VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%
发布时间:2026/5/26 12:24:31
研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。“把水果放进盘子里”——机器人看懂了指令开始执行却在最后关头抓偏了。这不是能力不够而是它在关键时刻“走神了”。至简动力、北大、港中文的研究团队发现VLA模型在深层动作预测时对关键视觉区域的依赖会持续下降。换句话说模型不是一开始看不清而是越到后面越容易“丢”掉关键视觉证据。研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。效果在仿真和真实任务中都有体现RLBench模拟器上平均成功率83%真实世界任务91.7%相比Pi0.5分别提升18%和7.5%。在未见过的背景和光照条件下性能依然稳定。近日至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、香港中文大学提出了DeepVision-VLA一种面向机器人操作的视觉增强VLA框架。研究核心目标不是简单再加一个视觉模块而是回答一个更本质的问题当VLA在深层动作决策时逐渐“看不清”关键目标能不能把高质量视觉信息重新注入进去围绕这个问题研究团队首先系统分析了多个代表性VLA模型内部的视觉利用机制发现其深层动作预测对关键视觉token的敏感性持续下降随后提出了Vision-Language Mixture-of-TransformersVL-MoT框架以及Action-Guided Visual PruningAGVP策略在保持计算开销可控的前提下让模型在关键时刻重新聚焦任务相关区域。最终DeepVision-VLA在仿真与真实机器人任务中都取得了显著提升在RLBench模拟器上达到83%平均成功率在真实世界任务中达到91.7%平均成功率相较于Pi0.5分别有18%和7.5%的成功率提升。△ 图1DeepVision-VLA整体框架示意图。(a)在原始VLA模型中模型对任务相关视觉token的依赖会随着层数加深而逐渐减弱从而导致深层动作预测对视觉信息的敏感性下降。(b)针对这一问题DeepVision-VLA提出视觉-语言混合Transformer框架将视觉基础模型的多层级视觉特征注入VLA主干网络深层以增强模型对精细复杂操作所需视觉信息的表征能力。(c)基于上述设计DeepVision-VLA在多项真实世界操作任务中取得了更优的性能。核心观察与研究动机过去很多工作都在增强VLA的视觉能力例如引入视觉提示、增加辅助视觉目标、融合更多模态信息或者通过未来状态建模提升动作生成效果。但这些方法大多默认了一件事只要视觉信息被编码进模型后续动作预测自然会持续利用这些视觉证据。这件事其实并不显然。VLA的动作生成通常依赖由多层Transformer堆叠而成的LLM backbone。从结构上看视觉信息往往只在前部进入模型随后需要随着层间传播不断参与后续动作预测。因此一个更本质的问题是视觉信息在VLA内部究竟是如何被利用的它会不会在深层逐渐被削弱为回答这个问题研究团队没有把VLA当作“黑盒”而是对其内部层级行为进行了系统分析。团队选择了三类具有代表性的VLA模型OpenVLAπQwenVLA-OFT它们覆盖了不同的LLM backbone、模型深度和动作生成范式。研究团队的目标不是比较谁更强而是回答一个更基础的问题当模型一层一层往后推理时动作预测到底还在多大程度上依赖任务相关视觉区域为了更准确地理解VLA的内部视觉利用机制团队设计了两个互补的probing实验一个用于观察不同层visual token对动作预测的贡献分布一个用于量化动作预测对任务关键视觉区域的敏感性这两个实验分别回答两个不同的问题模型在这一层“主要依赖图像中的哪里”如果把这些关键视觉区域拿掉动作预测到底会受到多大影响△ 图2VLA模型中视觉grounding的层间分析。上在不同层对ROI视觉token进行掩蔽时动作预测误差MSE的变化。在浅层掩蔽关键视觉token会显著恶化动作预测而这一影响在深层逐渐减弱。下不同层的Grad-CAM注意力可视化结果。浅层注意力主要聚焦于任务相关区域而在深层中逐渐趋于弥散说明模型对关键视觉区域的grounding能力随层数加深而减弱。实验一基于Grad-CAM的层级visual token贡献分析浅层动作表示仍然建立在较强的任务视觉grounding之上但到了深层动作预测对关键视觉证据的依赖开始减弱。换句话说问题不是模型完全“看不见”而是越到后面动作决策越不再强依赖最关键的视觉区域。实验二ROI visual token masking定量测量动作预测的视觉敏感性仅靠可视化还不够。贡献图可以显示“看起来模型在关注哪里”但它不能直接定量说明这些区域对动作预测究竟有多重要。因此团队进一步设计了一个更严格的层级干预实验ROI visual token masking。实验结果同样呈现出稳定一致的层级趋势在浅层mask掉ROI tokens会显著增大动作预测误差说明这些层高度依赖任务关键视觉信息随着层数加深这种影响持续减弱在更深层即使移除较大比例的ROI tokens动作预测变化也已经相对有限这一结果比单纯的可视化更进一步定量证明了任务相关视觉线索在VLA深层中被逐渐“低利用化”了。DeepVision-VLA即插即用框架基于上述分析团队的目标就变得非常明确既然问题出在深层动作预测对关键视觉区域不再敏感那么改进方向就不应只是增强输入视觉编码而应直接增强深层的视觉表征能力。基于这一思路研究团队提出DeepVision-VLA。其核心思想是在保留原始VLA结构的基础上引入一个更强的视觉专家并让它在深层与VLA backbone协同工作从而在最容易发生视觉退化的位置补充高质量视觉证据。整个方法由两个关键设计组成Vision-Language Mixture-of-TransformersVL-MoTAction-Guided Visual PruningAGVP△ 图3DeepVision-VLA框架概览。(a)通过所提出的视觉-语言混合TransformerVision–Language Mixture-of-TransformersVL-MoT框架将高分辨率视觉专家与LLM主干网络进行耦合其中LLM深层与视觉专家共享注意力从而增强动作预测中的视觉grounding能力。(b)利用LLM浅层的action-to-vision注意力聚合得到任务相关区域并在特征融合前据此对视觉专家token进行剪枝。(c)视觉专家token采用双向注意力机制以保留其预训练表征能力VLA token对prompt token采用因果注意力对action token采用双向注意力以支持并行的动作预测。VL-MoT深层特征建立共享注意力该方法建立在自定义基线QwenVLA-OFT之上。在此基础上团队引入一个高分辨率视觉专家DINOv3并提出Vision-Language Mixture-of-TransformersVL-MoT。它的核心不是把视觉专家特征直接拼接到输入而是让视觉专家和VLA深层在attention层面进行更紧密的协同。具体来说VL-MoT将视觉专家的多层特征与VLA深层进行对齐并在深层模块中引入Vision-Language Shared Attention。在这一机制下VLA深层可以直接访问来自视觉专家的高质量视觉表征视觉专家分支仍保持自己的表示能力不会被简单拼接后淹没视觉增强被精准地放在“最需要它的深层动作预测阶段”而不是停留在浅层输入级融合这也是VL-MoT与常见早期融合方式的根本区别。问题不只是“有没有用额外视觉特征”而是这些特征有没有在正确的位置、以正确的方式参与动作生成。AGVP让VLA浅层的有效grounding来指导深层视觉筛选尽管高分辨率视觉专家能够提供更强表征但如果把全部token全部送入深层也会带来两个问题大量背景与无关区域会引入噪声计算成本会迅速增加因此团队进一步提出Action-Guided Visual PruningAGVP。AGVP的核心思想来自前面的probing结果虽然深层视觉敏感性下降但浅层仍保留着较强的任务视觉grounding。因此研究团队利用浅层的action-to-vision响应来估计“当前动作真正关心哪些视觉区域”。具体来说AGVP会从若干浅层提取action-conditioned的视觉响应图对这些浅层结果进行聚合将聚合后的相关性映射到视觉专家的高分辨率token空间只保留top-K最相关tokens再送入深层模块这样一来深层获得的不是“整张图的全部视觉信息”而是由浅层动作grounding筛选过的高价值视觉证据。这一步非常关键它不仅降低了冗余和计算开销也使视觉增强真正与“当前动作需要什么”对齐。实验结果仿真实验团队在RLBench的10个机器人操作任务上系统评估了DeepVision-VLA。结果显示模型达到83%的平均成功率并显著超过多种代表性基线。更重要的是这种提升在视觉要求更高的任务中尤其明显。例如需要更强空间定位能力和交互判断能力的任务性能提升往往比平均提升还要更大。这说明DeepVision-VLA并不是简单提高平均分而是真正增强了模型在复杂视觉场景中的操作能力。△ 表1DeepVision-VLA与各基线方法在RLBench上的性能对比。所有方法均在多任务设置下进行训练评价指标为平均成功率真机实验△ 图5真实世界单臂机器人任务执行过程可视化从左到右。在真实世界实验中团队基于真实机器人平台评估了多项复杂操作任务例如抓取放置、堆叠、书写和倒液体等。这些任务不仅要求识别目标还要求模型持续跟踪边界、相对位置以及机械臂与物体之间的交互关系。最终DeepVision-VLA在真实世界任务中取得了91.7%的平均成功率展现出更强的精细操作能力和执行稳定性。这一结果说明深层视觉增强不仅在仿真里有效也能迁移到真实世界复杂操作中。△ 表2不同真实世界操作任务上的性能对比。Step表示整体任务中的原子子任务Avg表示平均成功率。该方法基于QwenOFT-VLA构建。泛化实验为了验证方法是否真正提升了视觉建模能力团队进一步测试了零样本泛化性能重点考察两类常见扰动未见背景未见光照条件结果显示DeepVision-VLA在这些扰动下仍能保持更稳定的操作表现。这表明该方法增强的不只是任务记忆而是模型对任务关键视觉结构的稳定提取能力。也就是说DeepVision-VLA带来的不是“在固定环境里做得更熟练”而是环境变了模型依然更容易看对关键区域。△ 表3泛化场景示意图。图中展示了未见测试条件其中Background和Lighting分别表示新的环境布局和变化的光照条件。DeepVision-VLA在这些扰动下仍表现出稳健的视觉增强能力并能够保持精确的操作性能。论文链接https://arxiv.org/pdf/2603.15618v1项目主页https://deepvision-vla.github.io/