26年3月来自上海创新研究院、智元机器人和哥伦比亚大学的论文“Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies”。通用型机器人策略正日益受益于大规模预训练但仅凭离线数据尚不足以支撑其在现实世界中实现稳健部署。已部署的机器人会遭遇数据分布漂移、长尾故障、任务变体以及人类介入修正的机会——而这些情境是固定的演示数据集所无法全面涵盖的。为此提出一种名为“边部署边学习”Learning While Deploying简称 LWD的框架。这是一种面向机器人机群规模的“离线-转-在线”强化学习框架旨在实现通用型“视觉-语言-动作”VLA策略的持续后训练。LWD 以预训练的 VLA 策略为起点通过利用整个机器人机群所收集的自主执行数据及人类干预数据在“部署—共享物理经验—策略改进—重新部署”这一闭环流程中实现无缝衔接。为了确保从异构且奖励稀疏的机群数据中进行学习时的稳定性LWD 融合两种关键技术一是“分布隐价值学习”DIVL用于实现稳健的价值估计二是“基于伴随匹配的 Q-学习”QAM用于从基于流flow-based的 VLA 动作生成器中提取优化策略。在由 16 台双臂机器人组成的机群上对 LWD 进行验证涵盖八项现实世界的抓取操作任务其中包括基于语义信息的杂货补货任务以及时长在 3 至 5 分钟之间的长时程任务。随着机群经验的不断积累这一单一的通用型策略性能持续提升最终达到 95% 的平均成功率其中在长时程任务上的性能提升尤为显著。如图 1 所示“边部署边学习”LWD面向通用型机器人策略的机群级Fleet-scale强化学习。首先利用人类收集的离线数据对预训练的“视觉-语言-动作”VLA模型进行初始化。随后数据飞轮启动运转该模型被部署至多样化的真实世界机器人任务中并自主收集在线交互数据。这些在线数据随后与离线回放缓冲区中的数据混合用于更新模型更新后的模型随即被重新部署以开展进一步的数据收集工作。机器人控制问题建模为一个马尔可夫决策过程 M (S, A, T, r, gamma)其中 gamma 在 (0, 1]之间 为折现因子。考虑一组由索引 k 标识的任务。每一个状态 s (o, l_k) 均由机器人观测值 o 以及指定任务 k 的语言指令 l_k 组成。对于长时程任务l_k 是一条高层指令例如“泡茶”而非一系列低层子任务指令。在设定中采用稀疏二元奖励机制仅当一个回合episode成功终止时奖励值 r 才为 1在其他情况下奖励值均为 0。隐Q-学习IQL[23]通过将标量状态值函数拟合至数据集中动作值的高分位数从而避免显式的动作最大化过程。流匹配FM[53] 将生成策略表示为随时间变化的向量场。在策略提取过程中流策略flow policy必须通过多步生成过程进行优化这使得直接进行critic反向传播变得代价高昂且可能不稳定。带有伴随匹配Adjoint Matching的 Q-learningQAM[25] 通过将 TD critic学习与伴随匹配策略更新相结合解决这一问题。LWD 遵循图 2(a) 所示的“离线-在线”循环流程。在离线阶段系统利用静态回放缓冲区 B_off 对策略、评论者Critic以及分布价值模型进行训练从而为后续的部署工作提供初始化参数。在在线阶段当前策略会被部署至一组机器人执行器Actors上进行自主数据展开Rollouts这些执行器将策略交互产生的状态转移数据以及可选的人工干预数据填充至在线回放缓冲区 B_on 中。学习器Learner利用来自 B_off U B_on 的混合回放数据来更新价值网络 V_theta、评论者网络 Q_psi 和条件流策略 f_phi并周期性地将更新后的策略重新部署回机器人集群中。这一过程形成了一个“数据飞轮”机器人执行数据采集以扩充回放缓冲区混合回放数据用于更新策略而更新后的策略检查点则被重新部署至机器人集群中。在该循环流程内部学习器整合了两个优化组件。首先分布隐式价值学习DIVL负责训练评论者 Q_psi 和分布价值模型 V_theta以实现价值学习。其次基于 QAM 的策略提取组件利用从 DIVL 过程中学到的 Q_psi 动作梯度对流策略Flow Policyf_phi 进行更新。A. 分布隐价值学习分布隐价值学习DIVL是 LWD 框架中的价值学习组件。它学习并构建关于回放数据中“动作-价值”的分布并选取该分布的一个分位数作为分块级评论者 Q_psi(s_t, a_t) 的自举Bootstrap目标。这一设计既保留 IQL [23] 所倡导的非对称自举原则又避免使用单一标量形式的期望分位数Expectile作为目标值。具体而言分布价值模型 V_theta(s_t) 刻画在给定状态 s_t 条件下数据集中“动作-价值”的条件分布 p_theta(v | s_t)。因此V_theta(s_t) 并非一个标量值估计。相反它代表在状态 s_t 下分配给回放动作的标量 Critic 值的分布。通过最小化来自指数移动平均EMA评论 Q_psi 的标量评论者Q_psi目标值的负对数似然函数 L_V(theta)来拟合上述分布。在实现中p_theta被表示为类别离散化。与 IQL 中采用的标量回归方法相比这种基于分布的参数化建模方式与 LWD 框架更为契合。此前已有研究 [55] 表明在多样化的多任务离线强化学习场景中采用类别分布形式来表征回报值Return Values具有显著的助益。此外该设计还为后续的两项关键设计提供了基础支持其一自举统计量可直接选取为分布 p_theta(v|s_t) 的一个分位数而无需额外拟合一个独立的标量价值函数其二分布 p_theta(v|s_t) 的熵值可作为一种不确定性信号用于动态调整超参数 tau 的取值。将 V_theta(s_t) 的 tau-分位数用作自举统计量由此得到 TD 目标 y_Q和评论者Critic损失为 L_Q(psi)。这个tao-分位数tao-quantile是一种基于回放动作的“分布内乐观自举”统计量而非针对整个动作空间的显式最大化回溯。这一特性恰好契合离线强化学习Offline RL的设定在该设定下目标函数应当倾向于高价值的回放动作同时避免在数据分布之外进行激进的外推。IQL 算法通过标量期望分位数expectile回归来解决同样的问题而 DIVL 算法则沿袭这种非对称的价值学习原则但通过分布式模型及分位数统计量来实现这一目标。命题 1非对称价值学习的分布视角对于该族中任意固定的非对称损失直接标量回归与通过拟合价值分布并提取相应非对称统计量所构成的两步法将产生相同的最优标量值。该命题表明DIVL 所采用的“分布价值估计”与“tau- 分位数提取”这两步式流程其最优解与相应的直接非对称价值回归目标具有一致性。这一结果为以下做法提供理论支撑即在给定固定的 tau 值时将所学得的价值分布中的某一分位数作为自举bootstrap更新的目标。tau 值的设定决定该目标所蕴含的乐观程度较大的 tau 值对应较高的分位数从而产生更为乐观的更新目标反之较小的 tau 值则会产生更为保守的目标。在混合任务回放mixed-task replay场景下单一的乐观程度水平未必适用于每一个具体的状态因此依据所学得的价值分布中蕴含的不确定性信息对 tau 值进行动态自适应调整。分散分布被赋予较低的 tao 值以减少高估而集中分布则保留更为乐观的目标。在计算 TD 目标时将 tau(s_tH) 视为停止梯度。B. 基于 QAM 的策略提取LWD 中的策略提取过程始于一个预训练好的基于流匹配flow-matching的 视觉-语言-动作VLA模型其目标是利用 DIVL 评论者critic来改进该模型的动作分布同时保留其生成式动作头部。现有的离线强化学习RL方法通常在提取策略时并不对 Q 函数进行求导即不进行反向传播例如通过对回放动作执行基于优势函数加权的回归来实现 [56, 43, 23, 57]。这种更新方式与基于流的 VLA 策略并不契合因为它要求在多步流生成策略下对动作片段action chunks的对数似然值进行评估。更一般地讲带有 KL 正则化的策略改进目标呈现出玻尔兹曼Boltzmann形式而其归一化常数要求对高维动作片段空间进行积分运算。另一种替代方案是利用动作的一阶梯度 nabla_a Q_phi(s, a) 来改进采样的动作片段。然而对于基于流的策略而言若通过对整个多步生成过程进行直接反向传播来应用这种更新将导致极高的计算开销且在数值上极不稳定。这使得直接利用评论者进行反向传播的方法难以作为大型 VLA 策略的优化手段。因此采用 QAM 方法来进行策略提取 [25]如上图 2(b) 的右侧所示。QAM 将轨迹层面的策略优化问题重构为沿参考流reference flow进行的一种局部回归优化目标。具体而言DIVL 评论者 Q_phi 提供包含奖励信息的梯度用于初始化终端伴随状态adjoint stateg_1该伴随状态进而引导对策略向量场进行精修。特别地将 f_beta 固定不变——即保持其为在离线强化学习阶段开始前已完成初始化的、基于行为克隆behavior-cloned的流模型与此同时在离线与在线训练的全过程中持续优化 f_theta。对于每一个回放小批量minibatch数据正如算法 2 的第 5 至 7 行所示首先采样状态与高斯噪声随后通过 f_beta 进行前向推演以生成参考流轨迹接着在生成的轨迹终点处评估梯度 nabla_a Q_phi(s, a) 的值求解伴随动力学方程并最终通过回归运算将 f_theta 引导向由此得出的局部优化目标。C. 离线到在线的强化学习训练流程遵循上图 2(a) 所示的 LWD 循环训练后阶段分为两个子阶段进行这两个阶段虽然共享相同的价值学习和策略提取目标但在数据来源上有所不同。离线阶段的训练基于一个离线缓冲区 B_off 进行如上图 2(a) 中的“阶段 1”及算法 1 的第 4–7 行所示。该离线缓冲区包含三种数据来源演示数据demonstrations即专家收集的成功轨迹试探数据rollouts即由历史策略生成的数据其中既包含成功的尝试也包含失败的尝试以及游玩数据play data即由人类引导探索失败模式时产生的数据。这三种来源的数据均被转换为与在线回放机制相同的“分块式转移”chunked transition格式并利用轨迹终点的成功或失败标签来分配稀疏的二元奖励。数据结构的详细信息如表 IV 所示。LWD 利用该离线缓冲区对策略 pi_theta、评论者 Q_phi 以及分布式价值函数 V_psi 进行预训练从而为在线阶段的部署与训练提供强有力的初始化。此外鉴于长时序任务往往持续数千个时间步且奖励信号极其稀疏单步 TD 目标在传播成功信号时会显得十分缓慢。因此在离线阶段采用一种“n 步分块级”的 TD 目标以此对评论者和分布式价值模型进行冷启动如果一个回合episode在 n 步窗口内提前终止会截断该回合的收益return仅计算至终止时刻所在的块chunk并移除其中的自举项bootstrap term。这种目标设定方式有助于加速稀疏奖励在固定的离线回放缓冲区中的传播。在在线训练阶段较长的多步目标效果并不理想。一个可能的原因是在线轨迹中混合策略生成的过渡数据与人类干预产生的过渡数据。由于较长的回溯路径更有可能跨越这两种不同的数据来源导致其对应的 TD 路径无法完全归属于单一的策略执行过程。鉴于评论者网络critic和价值模型均已通过离线阶段进行初始化因此在在线更新时采用基于单步1-step且以块chunk级 TD 目标。在线阶段会将经过离线初始化的策略部署至机器人集群中具体流程如上图 2(a) 的第 2 阶段所示并详见上面算法 1 的第 8 至 31 行。机器人会执行当前版本的策略检查点并将策略执行过程中产生的过渡数据异步传输至在线缓冲区 B_on 中。当人类操作员判定某次策略执行rollout需要修正时便可介入进行干预。这些干预片段会被存储在 B_on 中作为常规的在线回放过渡数据其中包含操作员执行的修正动作其对应的奖励值则沿用与自主执行回合相同的“成功”或“失败”终止标签进行赋值。因此在线回放缓冲区中既包含由策略自主生成的过渡数据也包含人类干预产生的过渡数据 [17]。在线训练过程将继续沿用相同的价值学习与策略提取目标对来自离线缓冲区 B_off 和在线缓冲区 B_on 的混合回放数据进行训练同时更新后的策略检查点会定期发布回机器人集群中。D. 架构上图 2(b) 展示 LWD 使用的具体神经网络架构。策略网络和价值/评论者网络是独立的模块将动作生成与价值和评论者优化隔离开来。只有策略检查点会异步分发给机器人集群进行推理而价值和评论者网络则保留在集中式学习器上。用共享的 Gemma3-SigLIP VLM 骨干网和独立的预测头来实现 V_theta 和 Q_phi。Gemma 3 语言模块和 SigLIP 视觉编码器分别从公开发布的 Gemma 3-270M-IT [58] 和 SigLIP-So400M 检查点 [59] 初始化而视觉投影层和价值/评论头则从头开始初始化。借鉴将读出tokens用作紧凑型 Transformer 表示的方法 [60, 61, 62]将共享骨干网络应用于状态 s_t 的多模态序列并将读出tokens的最终隐状态记为 z_t它同时作为价值预测和评论者预测的状态表示。价值预测头在固定的类别支持范围内预测 logits。根据 C51 投影 [54]标量监督目标 Q_(s_t,a_t) 被裁剪到价值支持范围内并线性投影到其两个相邻原子上从而得到目标分布 m_t。评论者同时对状态表示 z_t 和动作块 a_t 进行条件判断。动作块通过学习的时间注意池化层进行编码并与 z_t 连接。最终得到的表示被输入到两个标量评论预测头中采用裁剪的双-Q 设计其中最小评论者估计价值用于构建 DIVL 目标并使用 TD 备份来缓解高估。该 Actor 模型遵循 pi-0.5 基于流的 VLA 架构 [6]。它由一个 PaliGemma 视觉语言骨干网络构成该骨干网络使用 Gemma-2B 语言模型和 SigLIP 视觉编码器实例化并配备一个 Gemma-300M 动作专家用于生成基于流的动作。在离线强化学习阶段Actor 模型和价值/评论网络均进行完全微调由此得到的权重用于初始化在线训练。在在线 QAM 更新期间策略 VLM 骨干网络被冻结仅更新动作专家而价值和评论网络则继续在混合回放上进行完全微调。这种设计既保证在线策略更新的效率又保留预训练的视觉语言表示同时允许价值和评论网络适应不断变化的回放分布并提供更新的策略改进信号。实验设置1) 任务、评估与机器人a) 任务在八项真实世界任务上对 LWD 进行了评估如图 3 所示。杂货补货任务包含四项截然不同的子任务平层货架补货、错位商品纠正、带门式冷柜补货含开门操作以及开放式冷柜补货含纸箱搬运。这些任务共同测试策略遵循语言指令的能力以及在逼真的商店场景中进行语义泛化的能力。在每项任务中机器人必须在杂乱的待选物品中识别出指令指定的对象应对货架布局和容器几何形状的变体并完成所需的放置操作。评估过程中会变化对象实例、场景杂乱度、货架与容器布局、语言指令以及商店配置等要素。还在四项长时程任务上对所提出的方法进行评估冲泡功夫茶、制作果汁、调制鸡尾酒以及将鞋子装入鞋盒。每个任务回合episode通常持续 3 至 5 分钟包含 5 至 8 个已标注的子任务从而在规划、操作和恢复环节之间产生了长距离的依赖关系。任务的成功执行要求具备稳定的多阶段执行能力并辅以精准且涉及丰富接触交互的技能包括抓取调整、容器搬运、倾倒操作、工具使用以及最终放置。评估回合中包含自然的重置变异性涉及对象位姿、工具位置、食材种类、场景初始化状态、外部扰动以及偶尔出现的重试或恢复情境。b) 评估指标报告所有任务的任务级得分针对这两组任务采用不同的评分协议。对于杂货补货任务遵循 SOP [49] 的协议如果机器人在规定时间内正确遵循语言指令并完成了任务则该回合被判定为成功最终结果以二元成功率的形式呈现。对于长时程任务报告的是分步成功得分。每个已标注的子步骤根据表现被赋予相应的分数1 分完全自主成功、0.5 分成功但存在细微瑕疵或经单次重试后成功或 0 分经多次尝试后仍告失败最终的任务得分即为所有子步骤得分的平均值。评分工作由受过专业培训的人类评估员依据预先定义的评分细则进行该细则在所有方法和任务的评估中均被统一且一致地应用。此外还针对长时程任务报告“周期时间”cycle time指标以此来评估任务执行的效率。周期时间Cycle time的计算涵盖成功和失败的尝试对于失败的轨迹其持续时间将被截断至预先设定的、针对特定任务的超时阈值。c) 机器人集群设置所有实验均在 Agibot G1 双臂操作平台上进行。每台 G1 机器人配备两只具有 7 个自由度的机械臂装有平行夹爪以及三台 RGB 摄像头一台位于头部两台位于腕部。策略以 30 Hz 的频率执行关节位置控制。如图 4 所示部署一个由 16 台机器人组成的集群用于在在线训练期间并行收集交互数据rollouts其中 4 台机器人负责杂货补货任务其余每项长时程任务各分配 3 台机器人。该机器人集群连接到一个分布式“执行者-学习者”actor-learner系统边缘执行者负责上传完整的交互回合episodes中心化学习者负责获取带版本的回放数据并将更新后的策略发布给各个执行者。在每一项在线实验中每种方法均被分配 4 小时的实际运行时间预算wall-clock budget这相当于整个机器人集群累计收集约 60 小时的在线数据。机器人以异步方式收集交互数据来自所有任务的交互回合数据被汇集到一个统一的在线回放缓冲区中用于更新共享策略。该缓冲区既包含机器人自主执行产生的交互数据也包含在需要人工介入时所产生的干预片段。学习者每完成 50 个训练步便向整个机器人集群广播一次更新后的共享策略。2) 基线方法与参考策略选取两种后训练post-training基线方法——RECAP 和 HG-DAgger——进行对比并选用 SFT 作为参考策略。SFT 仅利用人类演示数据并采用标准的流匹配损失函数flow-matching loss进行训练。RECAP [15] 以参考策略为起点并利用机器人自主执行产生的交互数据进行迭代式的后训练。沿用其基于优势函数advantage-conditioned的策略改进机制但将其应用于多任务场景之中。HG-DAgger [7] 同样以参考策略为起点随后利用在线收集到的成功交互数据进行训练。分布式数据基础设施图10展示LWD的训练数据基础设施该设施通过一个基于版本快照的数据平面将一组机器人执行器actor连接至一个多主机学习器learner。在执行器端每台机器人运行一个边缘客户端负责将逐帧观测数据汇聚成完整的“回合”episode并在回合结束时将其上传至分布式对象存储系统回合元数据由一项业务服务进行持久化存储同时相关的事件通知会被发布至消息队列。在云端一个中央协调器Coordinator负责消费来自消息队列的事件通知从对象存储中获取回合元数据并提交单调递增的快照版本从而定义每个训练步骤所对应的数据视图。学习器以多主机SPMD单程序多数据模式的JAX程序形式运行其中每个节点运行一个进程负责驱动该节点上的所有本地加速器。每个进程均实例化一个“分布式回放缓冲区”DRB读取器作为其数据集接口在执行每个训练步骤之前所有的DRB读取器会通过跨主机同步屏障barrier机制同步至同一个快照版本从而确保尽管边缘端的数据摄取是异步进行的但整个SPMD集群所见的数据集视图仍保持全局一致。每个DRB读取器都会派生出一个预取子进程负责并行地从对象存储中下载数据载荷在实际部署中为每个节点配置一个预取子进程便足以充分利用底层分布式文件系统所能提供的节点级读取带宽。由SPMD集群所生成的模型参数会被发布至一个“发布-订阅”通道该通道会将参数广播至所有的机器人执行器这些执行器会在回合结束时加载并切换至最新的策略模型。在整个系统设计中协调器是唯一的单例编排组件而执行器集群与学习器集群均可独立进行扩展。从两个关键的运行维度对该基础设施进行特性分析这两个维度对于在线强化学习Online RL至关重要一是系统能否确保每一个已收集的回合数据都能被可靠地纳入训练过程二是新数据与更新后的策略模型在“执行器—学习器”循环链路中的流转速度如何。端到端可靠性该系统能够为执行器端所产生的每一个回合数据提供“至少一次”at-least-once的端到端交付保障。(i) 对象存储上传操作具备原子性即读取端要么能看到完整的已上传数据载荷要么完全看不到该对象且系统会持续重试上传操作直至数据成功持久化存储为止。(ii) 回合元数据的提交是通过业务服务中的事务性插入操作来完成的随后系统会将相关通知发布至一个具备交付确认机制的持久化消息队列中从而确保即使协调器发生重启这些通知也不会丢失。 (iii) 针对每个节点的预取下载任务若遇失败会被重新排队并进行有限次数的重试在快照提交时快照数据与版本指针会以原子方式同步更新从而确保局部故障不会导致快照数据处于不一致的状态。在进行性能剖析的某次运行中历时8小时涉及16个执行者Actor共包含1604个回合Episode处于稳态阶段的每一个已摄入Episode均完整地走完整个端到端处理流程。运行延迟在此报告两项端到端延迟指标它们决定“Actor-Learner”循环的紧耦合程度(i) 回合-学习者Episode-to-Learner即从执行者端生成一个回合到该回合数据可供学习器进行采样之间所经过的时间以及(ii) 模型-执行者Model-to-Actor即从Learner发布新策略到Actor加载该策略并准备用于下一轮策略执行Rollout之间所经过的时间。
边部署边学习:面向通用机器人策略的机群-级强化学习
发布时间:2026/5/26 6:55:04
26年3月来自上海创新研究院、智元机器人和哥伦比亚大学的论文“Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies”。通用型机器人策略正日益受益于大规模预训练但仅凭离线数据尚不足以支撑其在现实世界中实现稳健部署。已部署的机器人会遭遇数据分布漂移、长尾故障、任务变体以及人类介入修正的机会——而这些情境是固定的演示数据集所无法全面涵盖的。为此提出一种名为“边部署边学习”Learning While Deploying简称 LWD的框架。这是一种面向机器人机群规模的“离线-转-在线”强化学习框架旨在实现通用型“视觉-语言-动作”VLA策略的持续后训练。LWD 以预训练的 VLA 策略为起点通过利用整个机器人机群所收集的自主执行数据及人类干预数据在“部署—共享物理经验—策略改进—重新部署”这一闭环流程中实现无缝衔接。为了确保从异构且奖励稀疏的机群数据中进行学习时的稳定性LWD 融合两种关键技术一是“分布隐价值学习”DIVL用于实现稳健的价值估计二是“基于伴随匹配的 Q-学习”QAM用于从基于流flow-based的 VLA 动作生成器中提取优化策略。在由 16 台双臂机器人组成的机群上对 LWD 进行验证涵盖八项现实世界的抓取操作任务其中包括基于语义信息的杂货补货任务以及时长在 3 至 5 分钟之间的长时程任务。随着机群经验的不断积累这一单一的通用型策略性能持续提升最终达到 95% 的平均成功率其中在长时程任务上的性能提升尤为显著。如图 1 所示“边部署边学习”LWD面向通用型机器人策略的机群级Fleet-scale强化学习。首先利用人类收集的离线数据对预训练的“视觉-语言-动作”VLA模型进行初始化。随后数据飞轮启动运转该模型被部署至多样化的真实世界机器人任务中并自主收集在线交互数据。这些在线数据随后与离线回放缓冲区中的数据混合用于更新模型更新后的模型随即被重新部署以开展进一步的数据收集工作。机器人控制问题建模为一个马尔可夫决策过程 M (S, A, T, r, gamma)其中 gamma 在 (0, 1]之间 为折现因子。考虑一组由索引 k 标识的任务。每一个状态 s (o, l_k) 均由机器人观测值 o 以及指定任务 k 的语言指令 l_k 组成。对于长时程任务l_k 是一条高层指令例如“泡茶”而非一系列低层子任务指令。在设定中采用稀疏二元奖励机制仅当一个回合episode成功终止时奖励值 r 才为 1在其他情况下奖励值均为 0。隐Q-学习IQL[23]通过将标量状态值函数拟合至数据集中动作值的高分位数从而避免显式的动作最大化过程。流匹配FM[53] 将生成策略表示为随时间变化的向量场。在策略提取过程中流策略flow policy必须通过多步生成过程进行优化这使得直接进行critic反向传播变得代价高昂且可能不稳定。带有伴随匹配Adjoint Matching的 Q-learningQAM[25] 通过将 TD critic学习与伴随匹配策略更新相结合解决这一问题。LWD 遵循图 2(a) 所示的“离线-在线”循环流程。在离线阶段系统利用静态回放缓冲区 B_off 对策略、评论者Critic以及分布价值模型进行训练从而为后续的部署工作提供初始化参数。在在线阶段当前策略会被部署至一组机器人执行器Actors上进行自主数据展开Rollouts这些执行器将策略交互产生的状态转移数据以及可选的人工干预数据填充至在线回放缓冲区 B_on 中。学习器Learner利用来自 B_off U B_on 的混合回放数据来更新价值网络 V_theta、评论者网络 Q_psi 和条件流策略 f_phi并周期性地将更新后的策略重新部署回机器人集群中。这一过程形成了一个“数据飞轮”机器人执行数据采集以扩充回放缓冲区混合回放数据用于更新策略而更新后的策略检查点则被重新部署至机器人集群中。在该循环流程内部学习器整合了两个优化组件。首先分布隐式价值学习DIVL负责训练评论者 Q_psi 和分布价值模型 V_theta以实现价值学习。其次基于 QAM 的策略提取组件利用从 DIVL 过程中学到的 Q_psi 动作梯度对流策略Flow Policyf_phi 进行更新。A. 分布隐价值学习分布隐价值学习DIVL是 LWD 框架中的价值学习组件。它学习并构建关于回放数据中“动作-价值”的分布并选取该分布的一个分位数作为分块级评论者 Q_psi(s_t, a_t) 的自举Bootstrap目标。这一设计既保留 IQL [23] 所倡导的非对称自举原则又避免使用单一标量形式的期望分位数Expectile作为目标值。具体而言分布价值模型 V_theta(s_t) 刻画在给定状态 s_t 条件下数据集中“动作-价值”的条件分布 p_theta(v | s_t)。因此V_theta(s_t) 并非一个标量值估计。相反它代表在状态 s_t 下分配给回放动作的标量 Critic 值的分布。通过最小化来自指数移动平均EMA评论 Q_psi 的标量评论者Q_psi目标值的负对数似然函数 L_V(theta)来拟合上述分布。在实现中p_theta被表示为类别离散化。与 IQL 中采用的标量回归方法相比这种基于分布的参数化建模方式与 LWD 框架更为契合。此前已有研究 [55] 表明在多样化的多任务离线强化学习场景中采用类别分布形式来表征回报值Return Values具有显著的助益。此外该设计还为后续的两项关键设计提供了基础支持其一自举统计量可直接选取为分布 p_theta(v|s_t) 的一个分位数而无需额外拟合一个独立的标量价值函数其二分布 p_theta(v|s_t) 的熵值可作为一种不确定性信号用于动态调整超参数 tau 的取值。将 V_theta(s_t) 的 tau-分位数用作自举统计量由此得到 TD 目标 y_Q和评论者Critic损失为 L_Q(psi)。这个tao-分位数tao-quantile是一种基于回放动作的“分布内乐观自举”统计量而非针对整个动作空间的显式最大化回溯。这一特性恰好契合离线强化学习Offline RL的设定在该设定下目标函数应当倾向于高价值的回放动作同时避免在数据分布之外进行激进的外推。IQL 算法通过标量期望分位数expectile回归来解决同样的问题而 DIVL 算法则沿袭这种非对称的价值学习原则但通过分布式模型及分位数统计量来实现这一目标。命题 1非对称价值学习的分布视角对于该族中任意固定的非对称损失直接标量回归与通过拟合价值分布并提取相应非对称统计量所构成的两步法将产生相同的最优标量值。该命题表明DIVL 所采用的“分布价值估计”与“tau- 分位数提取”这两步式流程其最优解与相应的直接非对称价值回归目标具有一致性。这一结果为以下做法提供理论支撑即在给定固定的 tau 值时将所学得的价值分布中的某一分位数作为自举bootstrap更新的目标。tau 值的设定决定该目标所蕴含的乐观程度较大的 tau 值对应较高的分位数从而产生更为乐观的更新目标反之较小的 tau 值则会产生更为保守的目标。在混合任务回放mixed-task replay场景下单一的乐观程度水平未必适用于每一个具体的状态因此依据所学得的价值分布中蕴含的不确定性信息对 tau 值进行动态自适应调整。分散分布被赋予较低的 tao 值以减少高估而集中分布则保留更为乐观的目标。在计算 TD 目标时将 tau(s_tH) 视为停止梯度。B. 基于 QAM 的策略提取LWD 中的策略提取过程始于一个预训练好的基于流匹配flow-matching的 视觉-语言-动作VLA模型其目标是利用 DIVL 评论者critic来改进该模型的动作分布同时保留其生成式动作头部。现有的离线强化学习RL方法通常在提取策略时并不对 Q 函数进行求导即不进行反向传播例如通过对回放动作执行基于优势函数加权的回归来实现 [56, 43, 23, 57]。这种更新方式与基于流的 VLA 策略并不契合因为它要求在多步流生成策略下对动作片段action chunks的对数似然值进行评估。更一般地讲带有 KL 正则化的策略改进目标呈现出玻尔兹曼Boltzmann形式而其归一化常数要求对高维动作片段空间进行积分运算。另一种替代方案是利用动作的一阶梯度 nabla_a Q_phi(s, a) 来改进采样的动作片段。然而对于基于流的策略而言若通过对整个多步生成过程进行直接反向传播来应用这种更新将导致极高的计算开销且在数值上极不稳定。这使得直接利用评论者进行反向传播的方法难以作为大型 VLA 策略的优化手段。因此采用 QAM 方法来进行策略提取 [25]如上图 2(b) 的右侧所示。QAM 将轨迹层面的策略优化问题重构为沿参考流reference flow进行的一种局部回归优化目标。具体而言DIVL 评论者 Q_phi 提供包含奖励信息的梯度用于初始化终端伴随状态adjoint stateg_1该伴随状态进而引导对策略向量场进行精修。特别地将 f_beta 固定不变——即保持其为在离线强化学习阶段开始前已完成初始化的、基于行为克隆behavior-cloned的流模型与此同时在离线与在线训练的全过程中持续优化 f_theta。对于每一个回放小批量minibatch数据正如算法 2 的第 5 至 7 行所示首先采样状态与高斯噪声随后通过 f_beta 进行前向推演以生成参考流轨迹接着在生成的轨迹终点处评估梯度 nabla_a Q_phi(s, a) 的值求解伴随动力学方程并最终通过回归运算将 f_theta 引导向由此得出的局部优化目标。C. 离线到在线的强化学习训练流程遵循上图 2(a) 所示的 LWD 循环训练后阶段分为两个子阶段进行这两个阶段虽然共享相同的价值学习和策略提取目标但在数据来源上有所不同。离线阶段的训练基于一个离线缓冲区 B_off 进行如上图 2(a) 中的“阶段 1”及算法 1 的第 4–7 行所示。该离线缓冲区包含三种数据来源演示数据demonstrations即专家收集的成功轨迹试探数据rollouts即由历史策略生成的数据其中既包含成功的尝试也包含失败的尝试以及游玩数据play data即由人类引导探索失败模式时产生的数据。这三种来源的数据均被转换为与在线回放机制相同的“分块式转移”chunked transition格式并利用轨迹终点的成功或失败标签来分配稀疏的二元奖励。数据结构的详细信息如表 IV 所示。LWD 利用该离线缓冲区对策略 pi_theta、评论者 Q_phi 以及分布式价值函数 V_psi 进行预训练从而为在线阶段的部署与训练提供强有力的初始化。此外鉴于长时序任务往往持续数千个时间步且奖励信号极其稀疏单步 TD 目标在传播成功信号时会显得十分缓慢。因此在离线阶段采用一种“n 步分块级”的 TD 目标以此对评论者和分布式价值模型进行冷启动如果一个回合episode在 n 步窗口内提前终止会截断该回合的收益return仅计算至终止时刻所在的块chunk并移除其中的自举项bootstrap term。这种目标设定方式有助于加速稀疏奖励在固定的离线回放缓冲区中的传播。在在线训练阶段较长的多步目标效果并不理想。一个可能的原因是在线轨迹中混合策略生成的过渡数据与人类干预产生的过渡数据。由于较长的回溯路径更有可能跨越这两种不同的数据来源导致其对应的 TD 路径无法完全归属于单一的策略执行过程。鉴于评论者网络critic和价值模型均已通过离线阶段进行初始化因此在在线更新时采用基于单步1-step且以块chunk级 TD 目标。在线阶段会将经过离线初始化的策略部署至机器人集群中具体流程如上图 2(a) 的第 2 阶段所示并详见上面算法 1 的第 8 至 31 行。机器人会执行当前版本的策略检查点并将策略执行过程中产生的过渡数据异步传输至在线缓冲区 B_on 中。当人类操作员判定某次策略执行rollout需要修正时便可介入进行干预。这些干预片段会被存储在 B_on 中作为常规的在线回放过渡数据其中包含操作员执行的修正动作其对应的奖励值则沿用与自主执行回合相同的“成功”或“失败”终止标签进行赋值。因此在线回放缓冲区中既包含由策略自主生成的过渡数据也包含人类干预产生的过渡数据 [17]。在线训练过程将继续沿用相同的价值学习与策略提取目标对来自离线缓冲区 B_off 和在线缓冲区 B_on 的混合回放数据进行训练同时更新后的策略检查点会定期发布回机器人集群中。D. 架构上图 2(b) 展示 LWD 使用的具体神经网络架构。策略网络和价值/评论者网络是独立的模块将动作生成与价值和评论者优化隔离开来。只有策略检查点会异步分发给机器人集群进行推理而价值和评论者网络则保留在集中式学习器上。用共享的 Gemma3-SigLIP VLM 骨干网和独立的预测头来实现 V_theta 和 Q_phi。Gemma 3 语言模块和 SigLIP 视觉编码器分别从公开发布的 Gemma 3-270M-IT [58] 和 SigLIP-So400M 检查点 [59] 初始化而视觉投影层和价值/评论头则从头开始初始化。借鉴将读出tokens用作紧凑型 Transformer 表示的方法 [60, 61, 62]将共享骨干网络应用于状态 s_t 的多模态序列并将读出tokens的最终隐状态记为 z_t它同时作为价值预测和评论者预测的状态表示。价值预测头在固定的类别支持范围内预测 logits。根据 C51 投影 [54]标量监督目标 Q_(s_t,a_t) 被裁剪到价值支持范围内并线性投影到其两个相邻原子上从而得到目标分布 m_t。评论者同时对状态表示 z_t 和动作块 a_t 进行条件判断。动作块通过学习的时间注意池化层进行编码并与 z_t 连接。最终得到的表示被输入到两个标量评论预测头中采用裁剪的双-Q 设计其中最小评论者估计价值用于构建 DIVL 目标并使用 TD 备份来缓解高估。该 Actor 模型遵循 pi-0.5 基于流的 VLA 架构 [6]。它由一个 PaliGemma 视觉语言骨干网络构成该骨干网络使用 Gemma-2B 语言模型和 SigLIP 视觉编码器实例化并配备一个 Gemma-300M 动作专家用于生成基于流的动作。在离线强化学习阶段Actor 模型和价值/评论网络均进行完全微调由此得到的权重用于初始化在线训练。在在线 QAM 更新期间策略 VLM 骨干网络被冻结仅更新动作专家而价值和评论网络则继续在混合回放上进行完全微调。这种设计既保证在线策略更新的效率又保留预训练的视觉语言表示同时允许价值和评论网络适应不断变化的回放分布并提供更新的策略改进信号。实验设置1) 任务、评估与机器人a) 任务在八项真实世界任务上对 LWD 进行了评估如图 3 所示。杂货补货任务包含四项截然不同的子任务平层货架补货、错位商品纠正、带门式冷柜补货含开门操作以及开放式冷柜补货含纸箱搬运。这些任务共同测试策略遵循语言指令的能力以及在逼真的商店场景中进行语义泛化的能力。在每项任务中机器人必须在杂乱的待选物品中识别出指令指定的对象应对货架布局和容器几何形状的变体并完成所需的放置操作。评估过程中会变化对象实例、场景杂乱度、货架与容器布局、语言指令以及商店配置等要素。还在四项长时程任务上对所提出的方法进行评估冲泡功夫茶、制作果汁、调制鸡尾酒以及将鞋子装入鞋盒。每个任务回合episode通常持续 3 至 5 分钟包含 5 至 8 个已标注的子任务从而在规划、操作和恢复环节之间产生了长距离的依赖关系。任务的成功执行要求具备稳定的多阶段执行能力并辅以精准且涉及丰富接触交互的技能包括抓取调整、容器搬运、倾倒操作、工具使用以及最终放置。评估回合中包含自然的重置变异性涉及对象位姿、工具位置、食材种类、场景初始化状态、外部扰动以及偶尔出现的重试或恢复情境。b) 评估指标报告所有任务的任务级得分针对这两组任务采用不同的评分协议。对于杂货补货任务遵循 SOP [49] 的协议如果机器人在规定时间内正确遵循语言指令并完成了任务则该回合被判定为成功最终结果以二元成功率的形式呈现。对于长时程任务报告的是分步成功得分。每个已标注的子步骤根据表现被赋予相应的分数1 分完全自主成功、0.5 分成功但存在细微瑕疵或经单次重试后成功或 0 分经多次尝试后仍告失败最终的任务得分即为所有子步骤得分的平均值。评分工作由受过专业培训的人类评估员依据预先定义的评分细则进行该细则在所有方法和任务的评估中均被统一且一致地应用。此外还针对长时程任务报告“周期时间”cycle time指标以此来评估任务执行的效率。周期时间Cycle time的计算涵盖成功和失败的尝试对于失败的轨迹其持续时间将被截断至预先设定的、针对特定任务的超时阈值。c) 机器人集群设置所有实验均在 Agibot G1 双臂操作平台上进行。每台 G1 机器人配备两只具有 7 个自由度的机械臂装有平行夹爪以及三台 RGB 摄像头一台位于头部两台位于腕部。策略以 30 Hz 的频率执行关节位置控制。如图 4 所示部署一个由 16 台机器人组成的集群用于在在线训练期间并行收集交互数据rollouts其中 4 台机器人负责杂货补货任务其余每项长时程任务各分配 3 台机器人。该机器人集群连接到一个分布式“执行者-学习者”actor-learner系统边缘执行者负责上传完整的交互回合episodes中心化学习者负责获取带版本的回放数据并将更新后的策略发布给各个执行者。在每一项在线实验中每种方法均被分配 4 小时的实际运行时间预算wall-clock budget这相当于整个机器人集群累计收集约 60 小时的在线数据。机器人以异步方式收集交互数据来自所有任务的交互回合数据被汇集到一个统一的在线回放缓冲区中用于更新共享策略。该缓冲区既包含机器人自主执行产生的交互数据也包含在需要人工介入时所产生的干预片段。学习者每完成 50 个训练步便向整个机器人集群广播一次更新后的共享策略。2) 基线方法与参考策略选取两种后训练post-training基线方法——RECAP 和 HG-DAgger——进行对比并选用 SFT 作为参考策略。SFT 仅利用人类演示数据并采用标准的流匹配损失函数flow-matching loss进行训练。RECAP [15] 以参考策略为起点并利用机器人自主执行产生的交互数据进行迭代式的后训练。沿用其基于优势函数advantage-conditioned的策略改进机制但将其应用于多任务场景之中。HG-DAgger [7] 同样以参考策略为起点随后利用在线收集到的成功交互数据进行训练。分布式数据基础设施图10展示LWD的训练数据基础设施该设施通过一个基于版本快照的数据平面将一组机器人执行器actor连接至一个多主机学习器learner。在执行器端每台机器人运行一个边缘客户端负责将逐帧观测数据汇聚成完整的“回合”episode并在回合结束时将其上传至分布式对象存储系统回合元数据由一项业务服务进行持久化存储同时相关的事件通知会被发布至消息队列。在云端一个中央协调器Coordinator负责消费来自消息队列的事件通知从对象存储中获取回合元数据并提交单调递增的快照版本从而定义每个训练步骤所对应的数据视图。学习器以多主机SPMD单程序多数据模式的JAX程序形式运行其中每个节点运行一个进程负责驱动该节点上的所有本地加速器。每个进程均实例化一个“分布式回放缓冲区”DRB读取器作为其数据集接口在执行每个训练步骤之前所有的DRB读取器会通过跨主机同步屏障barrier机制同步至同一个快照版本从而确保尽管边缘端的数据摄取是异步进行的但整个SPMD集群所见的数据集视图仍保持全局一致。每个DRB读取器都会派生出一个预取子进程负责并行地从对象存储中下载数据载荷在实际部署中为每个节点配置一个预取子进程便足以充分利用底层分布式文件系统所能提供的节点级读取带宽。由SPMD集群所生成的模型参数会被发布至一个“发布-订阅”通道该通道会将参数广播至所有的机器人执行器这些执行器会在回合结束时加载并切换至最新的策略模型。在整个系统设计中协调器是唯一的单例编排组件而执行器集群与学习器集群均可独立进行扩展。从两个关键的运行维度对该基础设施进行特性分析这两个维度对于在线强化学习Online RL至关重要一是系统能否确保每一个已收集的回合数据都能被可靠地纳入训练过程二是新数据与更新后的策略模型在“执行器—学习器”循环链路中的流转速度如何。端到端可靠性该系统能够为执行器端所产生的每一个回合数据提供“至少一次”at-least-once的端到端交付保障。(i) 对象存储上传操作具备原子性即读取端要么能看到完整的已上传数据载荷要么完全看不到该对象且系统会持续重试上传操作直至数据成功持久化存储为止。(ii) 回合元数据的提交是通过业务服务中的事务性插入操作来完成的随后系统会将相关通知发布至一个具备交付确认机制的持久化消息队列中从而确保即使协调器发生重启这些通知也不会丢失。 (iii) 针对每个节点的预取下载任务若遇失败会被重新排队并进行有限次数的重试在快照提交时快照数据与版本指针会以原子方式同步更新从而确保局部故障不会导致快照数据处于不一致的状态。在进行性能剖析的某次运行中历时8小时涉及16个执行者Actor共包含1604个回合Episode处于稳态阶段的每一个已摄入Episode均完整地走完整个端到端处理流程。运行延迟在此报告两项端到端延迟指标它们决定“Actor-Learner”循环的紧耦合程度(i) 回合-学习者Episode-to-Learner即从执行者端生成一个回合到该回合数据可供学习器进行采样之间所经过的时间以及(ii) 模型-执行者Model-to-Actor即从Learner发布新策略到Actor加载该策略并准备用于下一轮策略执行Rollout之间所经过的时间。