HARBOR:一个面向具身智体机器人强化学习的驾驭框架 26年6月来自德国TU Darmstadt、欧洲本田研究所、哥伦比亚大学、同济大学、上海智能自动系统研究所、德国维尔茨堡大学 和 Hessian.AI 的论文“HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning”。强化学习RL已成为机器人学习的强大范式特别是在“仿真-到-现实”sim-to-real的场景中然而围绕算法的工程流程限制了其更广泛的应用。构建任务、设计奖励函数以及调整超参数都需要专家投入大量精力这使得强化学习的工作流成本高昂且难以扩展。HARBOR是一个智体驱动agentic的框架它将机器人强化学习的自动化过程建模为一种“驾驭工程”harness-engineering问题给定仿真器代码库和任务规范它能自动完成从环境搭建到仿真中策略训练的全流程。HARBOR 将这些高层目标分解为若干受限阶段由专用智体通过标准化指令、持久化产物、可执行的门控机制gates及可复用知识来执行同时它通过去中心化的并行试验和跨运行周期的经验学习来实现迭代扩展。在涵盖操作manipulation、运动locomotion和双臂灵巧控制bimanual dexterous control的 6 个基准测试和总计 16 个任务上对 HARBOR 进行评估。基于大语言模型LLM的智体为自动强化学习RL工程流程提供了极具前景的基础但实现长周期的自主运行不仅需要强大的模型能力。任务失败往往源于执行规范不明确智体缺乏可靠实现高层目标所需的工具、抽象机制和反馈信息 [18, 19, 20]。驾驭工程Harness Engineering通过改变人类的工作模式来解决这一问题将原本需要人工逐步执行的任务转变为设计结构化、可由智体读取且具备可验证接口的工作流 [21, 22]。机器人强化学习Robot RL特别契合这一理念马尔可夫决策过程MDP[1] 提供稳定的接口即状态、动作、奖励、动力学和终止条件而运行轨迹rollout、奖励信号和训练曲线则提供了可执行的反馈使得机器人RL的自动化成为驾驭工程的理想应用场景。为此推出了 HARBOR这是一个专为具备智体特性的机器人强化学习设计的Harness框架。给定仿真代码库和任务规范后一个中心主智体会将请求分解为若干有限阶段从依赖环境搭建到策略训练并指派专用智体负责各个阶段。这些智体调用基于内置模板、脚本和先验经验的标准化指令且仅在“可执行门控”executable gates验证输出无误后才会推进流程从而防止错误向下游传播。诸如奖励函数和算法参数调优等迭代阶段以并行试验的形式运行试验结果被提炼为可复用的经验供后续智体检索使用进而提升效率与可靠性。在涵盖操作manipulation、运动locomotion和双臂灵巧控制bimanual dexterous control的6个基准测试和16项任务上对HARBOR进行了评估。结果表明该框架实现了仿真RL工作流的自动化通过自主调优达到了与默认配置相当甚至更优的性能并以合理的代价降低工程投入同时生成的策略能够成功迁移至真实机器人上运行。如图 1概述HARBOR机器人强化学习RL自动化不仅仅是一个代码生成问题更是一项挑战即如何构建一个可靠的工作流使其能够在长时程跨度内进行决策、维护状态并验证进展。机器人强化学习流水线各环节紧密耦合任务设计影响奖励机制奖励机制塑造学习过程而部署阶段的失败往往需要回溯至早期环节。这种耦合既导致了不受约束的智体自动化系统变得脆弱同时也显露出某种可供自动化框架加以利用的结构特征。从 MDP 到机器人强化学习RL工作流强化学习通常被形式化为马尔可夫决策过程MDP[1, 2]M (S, A, P, r, ρ_0, γ, T)其中 S 和 A 分别表示状态空间和动作空间P 是转移动态r 是奖励函数ρ_0 是初始状态分布γ 是折扣因子T 规定了终止条件。尽管这种数学表述简洁明了但它掩盖了在机器人领域实例化 RL 问题所需的工程复杂性。状态空间和动作空间必须与仿真器的观测数据及机器人的控制接口相匹配而转移动态则由资产assets、控制频率和物理参数决定。除了 MDP 本身完整的机器人 RL 工作流还需要涉及算法集成、配置、日志记录、评估以及在“仿真-到-现实”sim-to-real场景下的部署接口。因此机器人 RL 不仅仅是在固定 MDP 上的策略优化还包括 MDP 及其相关流水线pipeline的构建、验证和迭代优化。面向长程智体自动化的驾驭Harness驾驭是指围绕大语言模型LLM智体构建的结构化执行环境它定义智体如何访问工具、保存产出物artifacts、观测反馈以及验证进度 [18, 21]。这种结构对于长程自主性至关重要因为成功的关键既取决于模型的能力也取决于如何分解、执行和检查开放式目标。因此驾驭工程将工作重心从手动执行每一步转移到了设计智体可读的工作流上这些工作流包含可复用的动作和可执行的验证步骤。机器人 RL 自动化特别适合采用此类执行框架。其 MDP 形式化定义相对稳定的接口而仿真器和训练过程则提供了用于检查中间进度的可执行反馈。接口检查可以捕捉无效的重置、观测和动作诊断状态和短时训练运行可以揭示奖励设置或优化过程中的失败渲染出的轨迹rollouts则能暴露出标量回报值可能掩盖的行为错误。虽然这些检查无法提供绝对保证但它们为智体验证产出物和从故障中恢复提供了实用的基础。面向强化学习RL的 Harness 抽象受上述特性的启发HARBOR 将通用的“智体驾驭”agentic harness模式专门应用于机器人 RL 自动化流程如图 1(2) 所示H_RL (H_A, C, M, G, K)其中H_A 代表智体agentsC 代表指令commandsM 代表可变工件mutable artifactsG 代表可验证门控verifiable gatesK 代表可复用知识reusable knowledge。知识和可变工件为智体提供上下文智体调用指令来转换工件门控利用可执行的 RL 证据验证生成的流程状态最终的成功或失败结果会被总结并归档为知识。从这个意义上说HARBOR 并不保证最终策略在语义上的正确性。相反它将许多常见的 RL 工程故障转化为可观测的门控故障从而在故障向下游传播之前将其拦截。• 智体H_A是上下文隔离的子进程被分配到 RL 工作流的特定阶段。每个智体基于该阶段局部的工件和检索到的知识进行操作执行局部实现然后向主控制器返回一份简要总结。• 指令C是向智体公开的可复现操作范围涵盖从基础调用如rl-sweep到复合循环如tune-reward的各种操作。同一指令接口可由不同的智体调用并配合不同的工件与门控使用。• 可变工件M将工作流状态外部化为持久且可检查的对象。它们充当智体与指令之间的通信载体减少了对短暂的大语言模型LLM上下文的依赖。• 可验证门控G是用于判定阶段能否推进的可执行检查机制。它们既包括严格的接口检查也包括较宽松的语义检查例如导入检查和 rollout 检查。• 可复用知识K包括模板、参考资料、脚本、人类启发式经验以及过往运行中积累的经验。它约束生成过程编码针对特定仿真器和算法的契约contracts并允许后续智体利用早期尝试的结果。HARBOR 将强化学习RL框架实例化为一个以“产出物”artifact为核心的机器人学习执行图。针对用户请求HARBOR 将其分解为若干有界阶段。每个阶段由专用智体处理该智体调用标准化指令生成持久化产出物并仅在“可执行门控”executable gates验证其输出后才推进流程。表 1 总结抽象驾驭元组如何实例化为具体的工作流阶段。系统概述与设计选择HARBOR 支持机器人 RL 开发的全生命周期在仿真环境中涵盖依赖项设置、任务构建、奖励设计、域随机化、算法集成及超参数调优。用户可指定仿真器、任务、算法、训练预算或调优目标中的任意子集HARBOR 则根据框架经验和代码库模板推断缺失的选项。随后它将工作流具体化为可运行代码、配置文件、验证日志、检查点、视频、指标及调优摘要。HARBOR 采取三项使其区别于通用大语言模型LLM编程智体的设计选择。首先工作流以产出物为核心持久化文件作为通信载体记录跨迭代保留的 MDP 状态和调优历史从而减少对瞬时 LLM 上下文的依赖。其次门控机制在阶段粒度上运行利用 RL 的可执行信号来验证每个阶段。第三执行过程在规划层面集中化但在实际执行层面去中心化这允许在不导致主智体上下文膨胀的情况下并行进行 RL 调优试验从而提高时间效率。门控检查执行协议HARBOR 采用统一协议执行每个阶段。主智体检索相关知识和当前产出物派生出一个具有有限上下文的阶段专用智体并指示其通过标准化指令编辑或创建产出物。指令输出随后由门控机制评估。若通过门控HARBOR 将提交产出物并将日志、指标、视频、决策及失败摘要写入可重用知识库。若未通过门控HARBOR 将失败摘要包括未通过的检查项、错误信息及观测值反馈给阶段智体进行修复若耗尽预设的重试次数后仍未成功该阶段将被标记为未解决并由主智体请求用户介入。例如任务生成器task-generator将 MDP 分解为有序的子阶段包括场景构建、初始化与终止条件设定以及动作与观测空间设计。在生成下一个组件之前每个子阶段都会设置相应的“门控”gates检查点。以末端执行器位姿增量控制器为例其动作门控机制会检查随机动作是否生成预期的目标位姿指令并核实指令目标位姿与实际位姿是否匹配从而揭示控制器、动力学模型或逆运动学计算中存在的错误。这些保守的检查虽不能证明语义层面的正确性但能验证局部接口行为并防止底层任务错误蔓延至后续阶段。基于经验学习的并行调优奖励函数设计、域随机化和算法调优通常涉及迭代过程需要尝试多种方案、分析失败原因并据此决定下一步的调整。HARBOR 采用“集中控制、分布执行”的模式来支持这一过程图 2 以奖励设计为例展示了该模式。主智体main agent维护调优历史记录包含各项拟议修改及其结果并调度多个并行子智能体每个子智体在独立的试验目录下运行。完整的运行过程视频、奖励函数代码和日志均保存在各自目录下从而支持试验异步运行、避免覆盖共享产出物并便于在计算集群上进行调度。试验结束后HARBOR 会汇总并分析结果进而决定下一步采取何种干预措施。这些运行记录同时也构成经验学习的基础。主智体不会将每次试验视为孤立的一次性过程而是在每轮调优后从多次试验中提炼出重复出现的模式如有效的奖励项、不稳定的参数范围或常见的失败模式并将其总结为简明的要点。在开启新一轮调优前HARBOR 会根据模拟器、任务或算法标签检索与当前项目阶段相匹配的经验信息。当整个阶段结束后这些总结出的要点会被存入 HARBOR 的经验库中供后续智体复用成功模式并规避已知的失败模式。插件接口与可控性HARBOR 被封装为大语言模型LLM智体插件其指令、产出物和检查点gates均采用结构化自然语言而非晦涩的代码编写。这使得用户能够清晰了解每个阶段的功能及检查点的校验逻辑并能通过编辑这些定义来自定义工作流。由于每个阶段都会在检查点处暂停并保存持久化产出物用户可以审计输出结果、介入修正特定阶段并从上一个通过检查点的状态恢复运行。此外用户还可以直接调用单个智体或指令以构建自定义的工作流程。自动化端到端仿真流水线首先评估 HARBOR 能否在不同仿真器和任务中实现机器人强化学习RL工作流的自动化。选择 IsaacLab、ManiSkill、Genesis 和 MJLab 这四个仿真平台并在每个平台上实现四种操作任务方块堆叠stack-cube、抽屉插入insert-drawer、箱体提举lift-box和灵巧抓取dex-grasping。这些任务涵盖长时程组合、铰接体交互、双臂协同以及灵巧控制等多种场景。给定包含场景资产、成功指标和预期行为的任务规范HARBOR 能够自动完成依赖项配置、任务实现、奖励函数生成、RL 集成及策略训练。如图 3 所示尽管各仿真器在 API、资产格式和接触接口方面存在差异HARBOR 仍能生成语义一致的任务实例。真实世界验证利用在不同仿真器中训练出的策略在真实机器人上针对全部四项任务验证“仿真-到-现实”sim-to-real的迁移效果。HARBOR 通过系统辨识system identification和域随机化domain randomization技术支持这种迁移它利用用户提供的真实世界轨迹搜索出最能匹配真实运行结果的仿真物理参数并根据人类反馈调整物体质量和初始位姿等随机化范围。