SkillVLA:通过技能复用应对双-臂操纵中的组合多样性 26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。视觉-语言-动作VLA模型近期取得的进展已充分展示了其在双臂操作任务中的巨大潜力不仅能够实现复杂的行为还能泛化至未曾见过的环境。然而当前主流的双臂 VLA 建模范式大多忽略了一个关键挑战即“组合多样性”问题。单臂行为的不同配对方式往往会产生本质上截然不同的任务行为但现有模型并未显式地对这种结构特性进行建模。高效的双臂 VLA 模型应当具备“技能复用”能力——即能够将此前习得的单臂技能通过全新的左右臂配对方式进行重新组合——从而避免针对每一种可能的组合都进行单独学习。目前的 VLA 设计往往将双臂技能耦合纠缠在一起从而阻碍了这种技能的重新组合并限制了模型的可扩展性。为了克服这一局限提出了 SkillVLA 框架该框架经过专门设计旨在赋能双臂操作任务中的技能复用能力。大量的实验结果表明SkillVLA 显著提升技能组合的有效性将整体任务成功率从 0% 大幅提升至 51%并在双臂协同任务及长时序任务中展现出了卓越的性能。如图1所示许多双臂任务可被视为单臂行为的组合左右臂技能的不同搭配将衍生出各异的双臂任务。随着底层技能集的扩充可能的搭配数量呈平方级增长从而产生了海量且对应于不同任务的组合。当前的视觉语言动作VLA范式在很大程度上忽视了这种组合多样性。若采用动作拼接的方式来预测双臂动作模型便需学习左右臂动作分布的联合分布。尽管这种设计简单且能捕捉紧密的双臂协调性但它将模型的输出局限于演示数据中已出现的动作搭配。其结果是该策略在组合泛化能力上表现乏力无法通过重新组合单臂技能来生成全新的双臂行为从而使其难以应对任务中的组合多样性挑战。若要实现技能复用模型必须满足两项条件(i) 针对任意给定场景 x选取合适的技能(ii) 针对所选技能或技能对生成正确的动作。后一条件促使在训练与执行阶段明确区分单臂技能与双臂技能而当前基于 VLA 的方法尚不支持这一功能。若要实现双臂技能所需的臂间协调必须建立一条能够促成左臂动作 a_L 与右臂动作 a_R 之间相互依赖的信息通路。在概念上将这一通路表示为一种“臂间信息”m由此产生的动作生成形式可表述为 π_L(a_L | x, Y_L, m_L) 和 π_R(a_R | x, Y_R, m_R).。在实际应用中臂间信息的实现方式多种多样既可以是显式的信息传递也可以像常见的整体式策略那样通过共享参数的方式隐式实现。在实践中许多双臂技能本质上接近于两个单臂技能的简单组合——具体而言在同一情境 x 下每只手臂大体上遵循各自独立的动作模式。其中的挑战在于双臂之间的协调由于双臂间的耦合作用其联合动作分布会偏离独立的乘积分布参见 I(a_L; a_R | x) 0。因此如果模型能够灵活地调用可复用的单臂技能那么在习得新的双臂技能时往往只需在现有单臂技能的基础上主要学习关于双臂耦合的补充信息通过极少量的微调即可完成而无需从头开始重新学习双臂的动作。由此可见有效的技能复用能够显著提升持续学习或大规模学习的效率。给定一个技能库动作生成可被视为首先针对给定的场景 x 选择要使用的技能或技能对随后从相应的技能分布中进行动作采样。“技能选择器”这个概念机制无需预设特定的模块或架构。理想而言该技能选择器不仅应当能为演示中曾出现的场景选取恰当的技能还应能针对从未见识过正确技能配置的新输入选出相应的技能。VLA 通常构建在预训练的 VLM 之上后者为视觉场景和自然语言指令提供了强大的泛化能力。通常VLA 包含一个额外的动作模块或称“动作专家”用于生成动作。在双臂操作任务中动作通常通过拼接左右臂的动作表示从而被统一为一个单一向量。VLM 是实现可泛化技能选择器的天然候选方案——即将场景 x 映射至恰当的技能索引 Y或等效的决策变量且该映射能力能够泛化至演示场景之外的未知场景。然而即使上游的技能决策模块能够充分区分需要不同技能的各类场景下游的动作生成机制是否也能按照所定义的内涵实现对技能的复用呢常见的 VLA 设计表现出两种形式的“技能纠缠”从而阻碍技能的有效复用动作纠缠Action Entanglement。许多双臂 VLA 策略在训练时被设定为预测一个单一的、拼接而成的关节动作向量 (a_L, a_R)。这种“一体化”的监督方式在输出层面上将双臂动作耦合在一起并促使模型去拟合由成对演示数据所诱导的经验性联合分布。其结果是习得的策略可能会将数据集中特有的“跨臂关联”内化吸收而非从中剥离出可复用的单臂动作结构。这对技能的复用与重组构成了障碍。即便上游的视觉-语言推理模块能够识别出需要不同技能的场景下游的动作生成器仍可能无法做到(i) 将单臂技能从双臂协调模式中解耦出来以及 (ii) 支持对单臂技能进行重组——特别是那些超越训练期间所见到的“左右臂配对”模式的重组。换言之这种“联合动作学习”的范式可能会使模型产生偏差使其倾向于单纯复现演示数据中的双臂动作模式从而限制其泛化至未曾见过的单臂行为组合的能力。基于动作专家的 VLA 中的潜纠缠Latent entanglement in action-expert VLAs。正如前文所述近期的 VLA 方法通常通过增设一个专用的动作生成模块来对预训练的视觉-语言模型VLM进行功能增强例如π0/π0.5 [7, 23]、RDT2 [40]、DexVLA [42]。从抽象层面来看VLM 负责将上下文信息 x编码为一种表征 z而动作模块则基于该表征 z 来预测双臂动作。尽管这种架构在实践中可能行之有效但它引入一条额外的技能纠缠途径。在双手模仿任务中从成对演示数据中学习到的共享隐变量 z可能会隐式地编码双臂之间的相互依赖关系。当策略在未曾见过的左右臂配对情境下进行评估时这种隐性的纠缠现象可能会导致技能重组效果下降其原因在于动作专家Action Expert在控制双臂动作时所依据的表征中已然混杂了来自双臂的信息。SkillVLA 是一种旨在实现高效技能复用的方法旨在应对组合多样性挑战并加速新技能的习得。A 方法流水线方法概览见图 2沿袭通用的 VLA视觉语言动作范式其核心包含一个顶层 视觉-语言模型且动作是通过迭代式的流匹配flow-matching过程 [28, 30] 生成的。在具体的实现中采用随 π0.5 [23] 版本一同发布的预训练 PaliGemma [6] 作为骨干网络以此初始化 VLM。方法主要由以下两个功能组件构成两级推理技能选择与动作生成。鉴于在实际应用中通常无法获取显式的技能库目标是让模型能够自主发现并实例化那些既支持学习又支持复用的技能表征。技能可以采取多种形式进行表征在 SkillVLA 中选用自然语言作为技能描述符这一选择与 VLM 骨干网络天然契合。通过构建一套“两级推理流水线”来实现这一设计。如图2所示高层模块显式生成针对各机械臂的子提示作为技能描述符。这种表征方式旨在捕捉任务意图并显式地解耦单臂技能的选择过程从而实现灵活的单臂重组通过在新的场景中将预先生成或习得的 u_L 和 u_R 进行配对即可构建出全新的技能组合。在低层技能学习阶段冻结高层 VLM的参数以在训练动作组件的同时保留其视觉-语言的泛化能力。在低层层面左右臂的动作分别由两条独立的流生成。每条流均使用其专属的低层 VLM经过独立微调例如利用 LoRA [20] 技术来处理视觉输入及对应的单臂提示词进而生成单臂的潜表征 z_i f_i(x, u_i)其中 i {L, R}。随后动作专家模块依据相应的潜表征及当前机械臂的状态预测出具体的动作指令。为了在必要时支持双臂的协同操作在动作专家模块之间引入一种自适应的交叉注意机制旨在捕捉双臂之间的相互依赖关系其中合作水平信号 α 对该信息进行门控以实现技能自适应的动作生成。协作估计器行为模式识别。尽管臂间通信有助于捕捉低层级的依赖关系但应有选择地启用对于单臂技能而言无论是在训练还是评估阶段双臂之间应在很大程度上保持解耦状态。为此引入一种“协作估计器”该估计器聚焦于高层级的 VLM 表征并预测一个标量 α ∈ [0,1]以此表征双臂间的协作程度α 值越大意味着耦合越强。该信号充当模式标识符用于指明当前行为究竟更适合被解释为 (i) 单臂技能的组合还是 (ii) 协作式的双臂技能。通过参数 α 对双臂间的消息传递进行门控从而使策略能够在“单臂独立生成”与“双臂耦合生成”这两种模式之间进行插值。为了训练 α_t采用一种源自行为克隆BC的简单“通信有效性CU”目标函数。B 额外的协作层级学习由于 α 直接调控着机械臂间的交互因此准确推断协作层级至关重要。引入额外的机制以促进对协作水平的可靠估计并在具体实现中默认启用这些机制。用于协作学习的先验与正则项。视觉-语言模型VLM经过大规模数据集的预训练因此能够编码广泛的任务语义及常识性规律例如在何种情境下通常需要两臂协同工作。这使得它们成为估算“依赖于具体任务的协作水平”的天然先验知识来源。为了将这些信息提炼并整合至一个轻量级的估计器中利用一个现成的 VLM针对当前场景与任务生成一个先验协作强度值 αvlm∈ [0, 1]若采用离散式门控机制则生成 αvlm∈ {0, 1}。协作层级离散化。在实践中连续型门控变量αt\alpha_tαt​可能会呈现出微小但持续的波动从而导致动作生成过程不稳定。为了提升稳定性我们作为可选方案通过将 α_t 限制在集合 {0, 1} 中对该门控变量进行离散化处理。具体而言模型会预测一个介于 (0, 1) 之间的数值 yˆ_t该数值代表开启跨臂通信的概率利用二元交叉熵损失函数对模型进行训练。将相同的先验和正则化项应用于 yˆ_t 作为一种软松弛处理从而对所得的离散门进行塑形。这种token化的表述简化门的预测过程且在初步实验中经验性地提升系统的稳定性。方法实现。目标是识别现有 VLA系统的结构性局限并在受控环境下评估提出的改进方案。为避免引入混杂因素未采用全新的骨干网络架构或大规模的预训练策略。相反仅对核心基线模型 π0.5 [23] 进行了极少量的结构性修改以确保整个流程既符合所提出的“解耦”设计理念又能保持各组件之间的可比性。利用随 π0.5 [23] 发布、已预训练的 PaliGemma 模型权重来初始化各组件并对低层级 VLM及动作专家模块进行复制以支持解耦式的执行流程。尽管可以直接使用现成的 VLM 模型但在正式进行策略学习之前会利用子任务生成数据对高层级 VLM 进行一次轻量级的视觉-语言微调以确保提示prompting的稳定性随后在整个主训练阶段中该模块将保持冻结状态仅通过独立的 LoRA 适配器 [20] 对低层级 VLM 进行微调。负责协调两个动作专家之间受控交互的“交叉注意”模块采用了独立且从零开始训练的查询/键/值QKV投影层。在动作采样环节沿用与原始 π0.5 实现完全一致的流匹配flow-matching时间表。最后用于估算“协作水平”的模块被实现为一个 Transformer 解码器它通过交叉注意机制对高层级 VLM 的 KV 缓存进行关注attend。协作先验。为了获取作为学习先验知识的“协作水平”标签利用一个参数已冻结的 Qwen3-VL-32B 模型 [3] 对训练数据集进行预处理。具体而言通过提示语引导该模型对任务所需的“双臂协作程度”进行标注随后将这些标注数值作为“真值监督”的一部分补充至数据集中以此来增强协作水平估算器的训练数据。