SkillVLA：通过技能复用应对双-臂操纵中的组合多样性

发布时间：2026/5/26 1:36:13

26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。视觉-语言-动作VLA模型近期取得的进展已充分展示了其在双臂操作任务中的巨大潜力不仅能够实现复杂的行为还能泛化至未曾见过的环境。然而当前主流的双臂 VLA 建模范式大多忽略了一个关键挑战即“组合多样性”问题。单臂行为的不同配对方式往往会产生本质上截然不同的任务行为但现有模型并未显式地对这种结构特性进行建模。高效的双臂 VLA 模型应当具备“技能复用”能力——即能够将此前习得的单臂技能通过全新的左右臂配对方式进行重新组合——从而避免针对每一种可能的组合都进行单独学习。目前的 VLA 设计往往将双臂技能耦合纠缠在一起从而阻碍了这种技能的重新组合并限制了模型的可扩展性。为了克服这一局限提出了 SkillVLA 框架该框架经过专门设计旨在赋能双臂操作任务中的技能复用能力。大量的实验结果表明SkillVLA 显著提升技能组合的有效性将整体任务成功率从 0% 大幅提升至 51%并在双臂协同任务及长时序任务中展现出了卓越的性能。如图1所示许多双臂任务可被视为单臂行为的组合左右臂技能的不同搭配将衍生出各异的双臂任务。随着底层技能集的扩充可能的搭配数量呈平方级增长从而产生了海量且对应于不同任务的组合。当前的视觉语言动作VLA范式在很大程度上忽视了这种组合多样性。若采用动作拼接的方式来预测双臂动作模型便需学习左右臂动作分布的联合分布。尽管这种设计简单且能捕捉紧密的双臂协调性但它将模型的输出局限于演示数据中已出现的动作搭配。其结果是该策略在组合泛化能力上表现乏力无法通过重新组合单臂技能来生成全新的双臂行为从而使其难以应对任务中的组合多样性挑战。若要实现技能复用模型必须满足两项条件(i) 针对任意给定场景 x选取合适的技能(ii) 针对所选技能或技能对生成正确的动作。后一条件促使在训练与执行阶段明确区分单臂技能与双臂技能而当前基于 VLA 的方法尚不支持这一功能。若要实现双臂技能所需的臂间协调必须建立一条能够促成左臂动作 a_L 与右臂动作 a_R 之间相互依赖的信息通路。在概念上将这一通路表示为一种“臂间信息”m由此产生的动作生成形式可表述为 π_L(a_L | x, Y_L, m_L) 和 π_R(a_R | x, Y_R, m_R).。在实际应用中臂间信息的实现方式多种多样既可以是显式的信息传递也可以像常见的整体式策略那样通过共享参数的方式隐式实现。在实践中许多双臂技能本质上接近于两个单臂技能的简单组合——具体而言在同一情境 x 下每只手臂大体上遵循各自独立的动作模式。其中的挑战在于双臂之间的协调由于双臂间的耦合作用其联合动作分布会偏离独立的乘积分布参见 I(a_L; a_R | x) 0。因此如果模型能够灵活地调用可复用的单臂技能那么在习得新的双臂技能时往往只需在现有单臂技能的基础上主要学习关于双臂耦合的补充信息通过极少量的微调即可完成而无需从头开始重新学习双臂的动作。由此可见有效的技能复用能够显著提升持续学习或大规模学习的效率。给定一个技能库动作生成可被视为首先针对给定的场景 x 选择要使用的技能或技能对随后从相应的技能分布中进行动作采样。“技能选择器”这个概念机制无需预设特定的模块或架构。理想而言该技能选择器不仅应当能为演示中曾出现的场景选取恰当的技能还应能针对从未见识过正确技能配置的新输入选出相应的技能。VLA 通常构建在预训练的 VLM 之上后者为视觉场景和自然语言指令提供了强大的泛化能力。通常VLA 包含一个额外的动作模块或称“动作专家”用于生成动作。在双臂操作任务中动作通常通过拼接左右臂的动作表示从而被统一为一个单一向量。VLM 是实现可泛化技能选择器的天然候选方案——即将场景 x 映射至恰当的技能索引 Y或等效的决策变量且该映射能力能够泛化至演示场景之外的未知场景。然而即使上游的技能决策模块能够充分区分需要不同技能的各类场景下游的动作生成机制是否也能按照所定义的内涵实现对技能的复用呢常见的 VLA 设计表现出两种形式的“技能纠缠”从而阻碍技能的有效复用动作纠缠Action Entanglement。许多双臂 VLA 策略在训练时被设定为预测一个单一的、拼接而成的关节动作向量 (a_L, a_R)。这种“一体化”的监督方式在输出层面上将双臂动作耦合在一起并促使模型去拟合由成对演示数据所诱导的经验性联合分布。其结果是习得的策略可能会将数据集中特有的“跨臂关联”内化吸收而非从中剥离出可复用的单臂动作结构。这对技能的复用与重组构成了障碍。即便上游的视觉-语言推理模块能够识别出需要不同技能的场景下游的动作生成器仍可能无法做到(i) 将单臂技能从双臂协调模式中解耦出来以及 (ii) 支持对单臂技能进行重组——特别是那些超越训练期间所见到的“左右臂配对”模式的重组。换言之这种“联合动作学习”的范式可能会使模型产生偏差使其倾向于单纯复现演示数据中的双臂动作模式从而限制其泛化至未曾见过的单臂行为组合的能力。基于动作专家的 VLA 中的潜纠缠Latent entanglement in action-expert VLAs。正如前文所述近期的 VLA 方法通常通过增设一个专用的动作生成模块来对预训练的视觉-语言模型VLM进行功能增强例如π0/π0.5 [7, 23]、RDT2 [40]、DexVLA [42]。从抽象层面来看VLM 负责将上下文信息 x编码为一种表征 z而动作模块则基于该表征 z 来预测双臂动作。尽管这种架构在实践中可能行之有效但它引入一条额外的技能纠缠途径。在双手模仿任务中从成对演示数据中学习到的共享隐变量 z可能会隐式地编码双臂之间的相互依赖关系。当策略在未曾见过的左右臂配对情境下进行评估时这种隐性的纠缠现象可能会导致技能重组效果下降其原因在于动作专家Action Expert在控制双臂动作时所依据的表征中已然混杂了来自双臂的信息。SkillVLA 是一种旨在实现高效技能复用的方法旨在应对组合多样性挑战并加速新技能的习得。A 方法流水线方法概览见图 2沿袭通用的 VLA视觉语言动作范式其核心包含一个顶层视觉-语言模型且动作是通过迭代式的流匹配flow-matching过程 [28, 30] 生成的。在具体的实现中采用随 π0.5 [23] 版本一同发布的预训练 PaliGemma [6] 作为骨干网络以此初始化 VLM。方法主要由以下两个功能组件构成两级推理技能选择与动作生成。鉴于在实际应用中通常无法获取显式的技能库目标是让模型能够自主发现并实例化那些既支持学习又支持复用的技能表征。技能可以采取多种形式进行表征在 SkillVLA 中选用自然语言作为技能描述符这一选择与 VLM 骨干网络天然契合。通过构建一套“两级推理流水线”来实现这一设计。如图2所示高层模块显式生成针对各机械臂的子提示作为技能描述符。这种表征方式旨在捕捉任务意图并显式地解耦单臂技能的选择过程从而实现灵活的单臂重组通过在新的场景中将预先生成或习得的 u_L 和 u_R 进行配对即可构建出全新的技能组合。在低层技能学习阶段冻结高层 VLM的参数以在训练动作组件的同时保留其视觉-语言的泛化能力。在低层层面左右臂的动作分别由两条独立的流生成。每条流均使用其专属的低层 VLM经过独立微调例如利用 LoRA [20] 技术来处理视觉输入及对应的单臂提示词进而生成单臂的潜表征 z_i f_i(x, u_i)其中 i {L, R}。随后动作专家模块依据相应的潜表征及当前机械臂的状态预测出具体的动作指令。为了在必要时支持双臂的协同操作在动作专家模块之间引入一种自适应的交叉注意机制旨在捕捉双臂之间的相互依赖关系其中合作水平信号 α 对该信息进行门控以实现技能自适应的动作生成。协作估计器行为模式识别。尽管臂间通信有助于捕捉低层级的依赖关系但应有选择地启用对于单臂技能而言无论是在训练还是评估阶段双臂之间应在很大程度上保持解耦状态。为此引入一种“协作估计器”该估计器聚焦于高层级的 VLM 表征并预测一个标量 α ∈ [0,1]以此表征双臂间的协作程度α 值越大意味着耦合越强。该信号充当模式标识符用于指明当前行为究竟更适合被解释为 (i) 单臂技能的组合还是 (ii) 协作式的双臂技能。通过参数 α 对双臂间的消息传递进行门控从而使策略能够在“单臂独立生成”与“双臂耦合生成”这两种模式之间进行插值。为了训练 α_t采用一种源自行为克隆BC的简单“通信有效性CU”目标函数。B 额外的协作层级学习由于 α 直接调控着机械臂间的交互因此准确推断协作层级至关重要。引入额外的机制以促进对协作水平的可靠估计并在具体实现中默认启用这些机制。用于协作学习的先验与正则项。视觉-语言模型VLM经过大规模数据集的预训练因此能够编码广泛的任务语义及常识性规律例如在何种情境下通常需要两臂协同工作。这使得它们成为估算“依赖于具体任务的协作水平”的天然先验知识来源。为了将这些信息提炼并整合至一个轻量级的估计器中利用一个现成的 VLM针对当前场景与任务生成一个先验协作强度值 αvlm∈ [0, 1]若采用离散式门控机制则生成 αvlm∈ {0, 1}。协作层级离散化。在实践中连续型门控变量αt\alpha_tαt可能会呈现出微小但持续的波动从而导致动作生成过程不稳定。为了提升稳定性我们作为可选方案通过将 α_t 限制在集合 {0, 1} 中对该门控变量进行离散化处理。具体而言模型会预测一个介于 (0, 1) 之间的数值 yˆ_t该数值代表开启跨臂通信的概率利用二元交叉熵损失函数对模型进行训练。将相同的先验和正则化项应用于 yˆ_t 作为一种软松弛处理从而对所得的离散门进行塑形。这种token化的表述简化门的预测过程且在初步实验中经验性地提升系统的稳定性。方法实现。目标是识别现有 VLA系统的结构性局限并在受控环境下评估提出的改进方案。为避免引入混杂因素未采用全新的骨干网络架构或大规模的预训练策略。相反仅对核心基线模型 π0.5 [23] 进行了极少量的结构性修改以确保整个流程既符合所提出的“解耦”设计理念又能保持各组件之间的可比性。利用随 π0.5 [23] 发布、已预训练的 PaliGemma 模型权重来初始化各组件并对低层级 VLM及动作专家模块进行复制以支持解耦式的执行流程。尽管可以直接使用现成的 VLM 模型但在正式进行策略学习之前会利用子任务生成数据对高层级 VLM 进行一次轻量级的视觉-语言微调以确保提示prompting的稳定性随后在整个主训练阶段中该模块将保持冻结状态仅通过独立的 LoRA 适配器 [20] 对低层级 VLM 进行微调。负责协调两个动作专家之间受控交互的“交叉注意”模块采用了独立且从零开始训练的查询/键/值QKV投影层。在动作采样环节沿用与原始 π0.5 实现完全一致的流匹配flow-matching时间表。最后用于估算“协作水平”的模块被实现为一个 Transformer 解码器它通过交叉注意机制对高层级 VLM 的 KV 缓存进行关注attend。协作先验。为了获取作为学习先验知识的“协作水平”标签利用一个参数已冻结的 Qwen3-VL-32B 模型 [3] 对训练数据集进行预处理。具体而言通过提示语引导该模型对任务所需的“双臂协作程度”进行标注随后将这些标注数值作为“真值监督”的一部分补充至数据集中以此来增强协作水平估算器的训练数据。

2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral

VGGT-Omega: Scaling Feed-Forward 3D Reconstruction Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al. Visual Geometry Group, Oxford Meta AI | CVPR 2026 Oral | arXiv 2605.15195 Paper | Project Page 一句话总结 VGGT-Om…

2026/5/26 1:33:11 阅读更多

Windows 10/11系统下，SecureCRT 8.7.2保姆级安装与激活图文指南（含Keygen使用避坑点）

Windows平台SecureCRT 8.7.2全流程部署与安全配置指南在当今远程运维与网络管理的日常工作中，一款可靠的终端仿真工具如同工程师的瑞士军刀。作为行业标杆的SecureCRT，其8.7.2版本在Windows 10/11环境下的部署却常让新手陷入各种技术陷阱——从安装路径选…

2026/5/26 1:33:11 阅读更多

第一篇：《Docker 是什么？为什么它改变了软件交付》

在软件开发领域，“环境不一致”导致的问题几乎每天都在上演：开发环境跑得好好的，到了测试环境就报错；运维部署时发现缺少某个依赖……Docker 的出现，用一种轻量、标准化的方式解决了这个世纪难题。本文将带你认识 Dock…

2026/5/26 1:32:11 阅读更多

【昇腾CANN】changelog自动化：用脚本省掉80%的版本记录工作

每次发版前最烦人的事情是什么？写 changelog。翻一个月的 commit history，对着一堆 fix typo、update readme、wip、asdf 这样的 commit message，欲言又止。 release-management 仓库里的 changelog 自动化模块，解决的就是这个问题…

2026/5/26 2:34:20 阅读更多

Sora 2商用红线预警：版权溯源链构建指南（含AI生成视频DCI数字版权登记全流程）

更多请点击： https://codechina.net 第一章：Sora 2商用红线预警与版权合规总览 Sora 2作为新一代生成式视频模型，在商用落地过程中面临多重法律与伦理边界约束。其核心风险集中于训练数据来源合法性、生成内容权属归属、以及商业使用场景下的…

2026/5/26 2:33:19 阅读更多

51单片机驱动ST7735S彩屏避坑指南：从5秒刷屏到流畅贪吃蛇的优化实战

51单片机驱动ST7735S彩屏性能优化实战：从卡顿到流畅游戏的蜕变之路当一块128x160分辨率的ST7735S彩屏遇上传统的51单片机，这种组合看似矛盾却又充满挑战。许多开发者初次尝试时会发现，原本在STM32等平台上运行流畅的显示驱动，移植…

2026/5/26 2:30:57 阅读更多

工业控制系统（ICS/OT）网络安全架构

工控安全总体架构设计：深入剖析了IT与OT融合带来的挑战，并基于普渡模型（Purdue Model）详细阐述了Level 0至Level 5的安全区域划分与通信管道隔离原则。核心产品线及部署规范：详细介绍了五大关键安全产品（工…

2026/5/26 2:29:56 阅读更多

番茄小说下载器：你的终极离线阅读解决方案

番茄小说下载器：你的终极离线阅读解决方案【免费下载链接】fanqienovel-downloader 下载番茄小说项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 你是否曾经遇到过这样的烦恼？在地铁上信号不好，想看的番茄小说…

2026/5/26 2:29:36 阅读更多

AI写毕业论文初稿查重15%-45%？怎么选能同时降重降AI的工具

用AI生成毕业论文初稿早已是很多学生的刚需，随之而来的普遍痛点是初稿查重率卡在15%-45%、AIGC疑似率超50%，不管是知网、维普查重标红，还是AI检测出高风险，都可能直接影响答辩资格。2026年各大高校的检测算法全面升级，…

2026/5/26 2:29:36 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章