VLA别再「走神」：即插即用提升视觉泛化，相对Pi0.5提升18%

发布时间：2026/5/26 12:24:31

研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。“把水果放进盘子里”——机器人看懂了指令开始执行却在最后关头抓偏了。这不是能力不够而是它在关键时刻“走神了”。至简动力、北大、港中文的研究团队发现VLA模型在深层动作预测时对关键视觉区域的依赖会持续下降。换句话说模型不是一开始看不清而是越到后面越容易“丢”掉关键视觉证据。研究团队提出的DeepVision-VLA框架给VLA装上一个即插即用的“视觉增强器”用视觉基础模型在深层注入高质量特征同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。效果在仿真和真实任务中都有体现RLBench模拟器上平均成功率83%真实世界任务91.7%相比Pi0.5分别提升18%和7.5%。在未见过的背景和光照条件下性能依然稳定。近日至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、香港中文大学提出了DeepVision-VLA一种面向机器人操作的视觉增强VLA框架。研究核心目标不是简单再加一个视觉模块而是回答一个更本质的问题当VLA在深层动作决策时逐渐“看不清”关键目标能不能把高质量视觉信息重新注入进去围绕这个问题研究团队首先系统分析了多个代表性VLA模型内部的视觉利用机制发现其深层动作预测对关键视觉token的敏感性持续下降随后提出了Vision-Language Mixture-of-TransformersVL-MoT框架以及Action-Guided Visual PruningAGVP策略在保持计算开销可控的前提下让模型在关键时刻重新聚焦任务相关区域。最终DeepVision-VLA在仿真与真实机器人任务中都取得了显著提升在RLBench模拟器上达到83%平均成功率在真实世界任务中达到91.7%平均成功率相较于Pi0.5分别有18%和7.5%的成功率提升。△ 图1DeepVision-VLA整体框架示意图。(a)在原始VLA模型中模型对任务相关视觉token的依赖会随着层数加深而逐渐减弱从而导致深层动作预测对视觉信息的敏感性下降。(b)针对这一问题DeepVision-VLA提出视觉-语言混合Transformer框架将视觉基础模型的多层级视觉特征注入VLA主干网络深层以增强模型对精细复杂操作所需视觉信息的表征能力。(c)基于上述设计DeepVision-VLA在多项真实世界操作任务中取得了更优的性能。核心观察与研究动机过去很多工作都在增强VLA的视觉能力例如引入视觉提示、增加辅助视觉目标、融合更多模态信息或者通过未来状态建模提升动作生成效果。但这些方法大多默认了一件事只要视觉信息被编码进模型后续动作预测自然会持续利用这些视觉证据。这件事其实并不显然。VLA的动作生成通常依赖由多层Transformer堆叠而成的LLM backbone。从结构上看视觉信息往往只在前部进入模型随后需要随着层间传播不断参与后续动作预测。因此一个更本质的问题是视觉信息在VLA内部究竟是如何被利用的它会不会在深层逐渐被削弱为回答这个问题研究团队没有把VLA当作“黑盒”而是对其内部层级行为进行了系统分析。团队选择了三类具有代表性的VLA模型OpenVLAπQwenVLA-OFT它们覆盖了不同的LLM backbone、模型深度和动作生成范式。研究团队的目标不是比较谁更强而是回答一个更基础的问题当模型一层一层往后推理时动作预测到底还在多大程度上依赖任务相关视觉区域为了更准确地理解VLA的内部视觉利用机制团队设计了两个互补的probing实验一个用于观察不同层visual token对动作预测的贡献分布一个用于量化动作预测对任务关键视觉区域的敏感性这两个实验分别回答两个不同的问题模型在这一层“主要依赖图像中的哪里”如果把这些关键视觉区域拿掉动作预测到底会受到多大影响△ 图2VLA模型中视觉grounding的层间分析。上在不同层对ROI视觉token进行掩蔽时动作预测误差MSE的变化。在浅层掩蔽关键视觉token会显著恶化动作预测而这一影响在深层逐渐减弱。下不同层的Grad-CAM注意力可视化结果。浅层注意力主要聚焦于任务相关区域而在深层中逐渐趋于弥散说明模型对关键视觉区域的grounding能力随层数加深而减弱。实验一基于Grad-CAM的层级visual token贡献分析浅层动作表示仍然建立在较强的任务视觉grounding之上但到了深层动作预测对关键视觉证据的依赖开始减弱。换句话说问题不是模型完全“看不见”而是越到后面动作决策越不再强依赖最关键的视觉区域。实验二ROI visual token masking定量测量动作预测的视觉敏感性仅靠可视化还不够。贡献图可以显示“看起来模型在关注哪里”但它不能直接定量说明这些区域对动作预测究竟有多重要。因此团队进一步设计了一个更严格的层级干预实验ROI visual token masking。实验结果同样呈现出稳定一致的层级趋势在浅层mask掉ROI tokens会显著增大动作预测误差说明这些层高度依赖任务关键视觉信息随着层数加深这种影响持续减弱在更深层即使移除较大比例的ROI tokens动作预测变化也已经相对有限这一结果比单纯的可视化更进一步定量证明了任务相关视觉线索在VLA深层中被逐渐“低利用化”了。DeepVision-VLA即插即用框架基于上述分析团队的目标就变得非常明确既然问题出在深层动作预测对关键视觉区域不再敏感那么改进方向就不应只是增强输入视觉编码而应直接增强深层的视觉表征能力。基于这一思路研究团队提出DeepVision-VLA。其核心思想是在保留原始VLA结构的基础上引入一个更强的视觉专家并让它在深层与VLA backbone协同工作从而在最容易发生视觉退化的位置补充高质量视觉证据。整个方法由两个关键设计组成Vision-Language Mixture-of-TransformersVL-MoTAction-Guided Visual PruningAGVP△ 图3DeepVision-VLA框架概览。(a)通过所提出的视觉-语言混合TransformerVision–Language Mixture-of-TransformersVL-MoT框架将高分辨率视觉专家与LLM主干网络进行耦合其中LLM深层与视觉专家共享注意力从而增强动作预测中的视觉grounding能力。(b)利用LLM浅层的action-to-vision注意力聚合得到任务相关区域并在特征融合前据此对视觉专家token进行剪枝。(c)视觉专家token采用双向注意力机制以保留其预训练表征能力VLA token对prompt token采用因果注意力对action token采用双向注意力以支持并行的动作预测。VL-MoT深层特征建立共享注意力该方法建立在自定义基线QwenVLA-OFT之上。在此基础上团队引入一个高分辨率视觉专家DINOv3并提出Vision-Language Mixture-of-TransformersVL-MoT。它的核心不是把视觉专家特征直接拼接到输入而是让视觉专家和VLA深层在attention层面进行更紧密的协同。具体来说VL-MoT将视觉专家的多层特征与VLA深层进行对齐并在深层模块中引入Vision-Language Shared Attention。在这一机制下VLA深层可以直接访问来自视觉专家的高质量视觉表征视觉专家分支仍保持自己的表示能力不会被简单拼接后淹没视觉增强被精准地放在“最需要它的深层动作预测阶段”而不是停留在浅层输入级融合这也是VL-MoT与常见早期融合方式的根本区别。问题不只是“有没有用额外视觉特征”而是这些特征有没有在正确的位置、以正确的方式参与动作生成。AGVP让VLA浅层的有效grounding来指导深层视觉筛选尽管高分辨率视觉专家能够提供更强表征但如果把全部token全部送入深层也会带来两个问题大量背景与无关区域会引入噪声计算成本会迅速增加因此团队进一步提出Action-Guided Visual PruningAGVP。AGVP的核心思想来自前面的probing结果虽然深层视觉敏感性下降但浅层仍保留着较强的任务视觉grounding。因此研究团队利用浅层的action-to-vision响应来估计“当前动作真正关心哪些视觉区域”。具体来说AGVP会从若干浅层提取action-conditioned的视觉响应图对这些浅层结果进行聚合将聚合后的相关性映射到视觉专家的高分辨率token空间只保留top-K最相关tokens再送入深层模块这样一来深层获得的不是“整张图的全部视觉信息”而是由浅层动作grounding筛选过的高价值视觉证据。这一步非常关键它不仅降低了冗余和计算开销也使视觉增强真正与“当前动作需要什么”对齐。实验结果仿真实验团队在RLBench的10个机器人操作任务上系统评估了DeepVision-VLA。结果显示模型达到83%的平均成功率并显著超过多种代表性基线。更重要的是这种提升在视觉要求更高的任务中尤其明显。例如需要更强空间定位能力和交互判断能力的任务性能提升往往比平均提升还要更大。这说明DeepVision-VLA并不是简单提高平均分而是真正增强了模型在复杂视觉场景中的操作能力。△ 表1DeepVision-VLA与各基线方法在RLBench上的性能对比。所有方法均在多任务设置下进行训练评价指标为平均成功率真机实验△ 图5真实世界单臂机器人任务执行过程可视化从左到右。在真实世界实验中团队基于真实机器人平台评估了多项复杂操作任务例如抓取放置、堆叠、书写和倒液体等。这些任务不仅要求识别目标还要求模型持续跟踪边界、相对位置以及机械臂与物体之间的交互关系。最终DeepVision-VLA在真实世界任务中取得了91.7%的平均成功率展现出更强的精细操作能力和执行稳定性。这一结果说明深层视觉增强不仅在仿真里有效也能迁移到真实世界复杂操作中。△ 表2不同真实世界操作任务上的性能对比。Step表示整体任务中的原子子任务Avg表示平均成功率。该方法基于QwenOFT-VLA构建。泛化实验为了验证方法是否真正提升了视觉建模能力团队进一步测试了零样本泛化性能重点考察两类常见扰动未见背景未见光照条件结果显示DeepVision-VLA在这些扰动下仍能保持更稳定的操作表现。这表明该方法增强的不只是任务记忆而是模型对任务关键视觉结构的稳定提取能力。也就是说DeepVision-VLA带来的不是“在固定环境里做得更熟练”而是环境变了模型依然更容易看对关键区域。△ 表3泛化场景示意图。图中展示了未见测试条件其中Background和Lighting分别表示新的环境布局和变化的光照条件。DeepVision-VLA在这些扰动下仍表现出稳健的视觉增强能力并能够保持精确的操作性能。论文链接https://arxiv.org/pdf/2603.15618v1项目主页https://deepvision-vla.github.io/

2026年毕设AIGC检测过不了？这3款降AI工具亲测靠谱

论文写完用AI检测一查，知网AIGC率60%多，心里一凉。这种情况现在太常见了。2026年各大高校对AIGC检测的要求比以前严了不少，很多人都在找降AI工具。这篇文章就是把我用过的几款主流工具汇总一下，帮你少走弯路。测试前说一件重要…

2026/5/27 2:52:06 阅读更多

Llama-3.2V-11B-cot入门必看：11B多模态模型在消费级硬件的可行性

Llama-3.2V-11B-cot入门必看：11B多模态模型在消费级硬件的可行性 1. 项目概述 Llama-3.2V-11B-cot是基于Meta最新多模态大模型开发的高性能视觉推理工具，专为消费级双卡4090环境优化。这个工具让普通开发者也能轻松体验11B参数规模的多模态模型能力&am…

2026/5/25 14:10:09 阅读更多

EKF定位翻车实录：从‘镜像漂移’到‘协方差爆炸’，我们是如何一步步调试RSSI+PDR系统的

EKF融合定位实战：从RSSIPDR系统调试到性能优化全解析引言：当定位算法遇上真实世界在室内定位领域，没有什么比看着自己精心设计的算法在实际环境中"翻车"更令人沮丧的了。那些在仿真中表现完美的数学模型，一旦遇到复杂…

2026/5/20 8:32:12 阅读更多

告别U盘和光盘：用清华同方同传软件给老旧电脑实验室做系统备份与还原

清华同方同传软件V2.4：老旧电脑实验室系统备份与还原实战指南在学校的计算机实验室里，那些服役多年的老旧电脑总是让人又爱又恨。它们可能没有光驱，USB启动经常出问题，而学生们的一个误操作就可能让整个系统崩溃。面对几十台甚至…

2026/5/27 2:55:07 阅读更多

2026 AI x Web3 School共学营笔记-Day8-Agent Wallet

一、整体感受今天听了 Cobo 关于 Agent Wallet 的产品分享，收获特别大！第一次系统了解 AI Agent 链上钱包的完整设计逻辑，打破了我对 Web3 钱包和 AI 结合的模糊认知，也学到了很多落地层面的技术思路和安全设计，对 AI …

2026/5/27 2:54:47 阅读更多

STM32G431串口通信实战：用CubeMX和HAL库搞定蓝桥杯嵌入式赛题（附完整代码）

STM32G431串口通信实战：从CubeMX配置到蓝桥杯赛题解析最近在辅导几位准备蓝桥杯嵌入式比赛的学生时，发现串口通信这个看似基础的功能，在实际比赛中往往成为丢分的重灾区。很多同学能跑通Demo，但面对赛题中特定的数据格式要求和异常…

2026/5/27 2:54:07 阅读更多

从用户分群到商品推荐：K-Means和KNN在电商数据分析里的真实应用案例

从用户分群到商品推荐：K-Means和KNN在电商数据分析里的真实应用案例电商平台每天产生海量用户行为数据，如何从这些数据中挖掘商业价值？本文将带你用K-Means和KNN算法解决两个核心业务问题：用户价值分群和个性化推荐。无需复杂数学…

2026/5/27 2:54:06 阅读更多

高光谱数据降维实战：鲁棒局部流形表示（RLMR）算法解析与应用

1. 高光谱数据降维：从“维数灾难”到“流形学习”的实战突围如果你处理过高光谱遥感影像，一定对动辄上百个波段的庞大数据量记忆犹新。这些数据像一本记录了地物在连续光谱上细微变化的“光谱百科全书”，理论上能让我们区分出不同种类的植被、…

2026/5/27 2:54:06 阅读更多

从‘袋外样本’到模型可信度：深入浅出图解随机森林OOB评估全流程

从‘袋外样本’到模型可信度：深入浅出图解随机森林OOB评估全流程想象你正在组织一场歌手选秀比赛。每位评委（决策树）从海选选手（训练数据）中随机挑选一部分人进行评分，但总有几位实力派选手因为运气不佳没被…

2026/5/27 2:51:19 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章