本文提出YUBI, Yielding Universal Bidigital Interface这是一款贴合手指形态的夹爪设备可为双手灵巧操作任务开展直观、符合人体工学且可规模化的数据采集工作。UMI等手持数据采集设备虽能实现低成本数据收集但其传统手枪式握把结构在精细灵巧操作任务中存在人体工学缺陷与使用不便等问题。针对上述问题YUBI 采用全新设计思路依托柔性、手指驱动式驱动结构将人类手指动作直接映射至夹爪钳口运动。本系统为 YUBI 设备配套集成基于虚拟现实VR的夹爪六自由度6 DoF追踪模块可高精度采集运动轨迹数据。依托该系统我们构建了基于 UMI 架构的超大尺度数据集总时长8434小时包含120万条交互片段、覆盖119类任务。与此同时夹爪的追踪精度也是一大难题。部分研究采用SLAM实现追踪后续不少系统转而搭配VR设备提升夹爪追踪精度——操作人员佩戴VR头显开展作业。但长期佩戴头显会给颈部带来巨大负担导致单次作业时长受限、整体运行效率偏低设备连续工作时长通常仅能达到30分钟。针对以上痛点本文重新设计手持式 UMI 设备提出贴合手指形态的交互界面 YUBI为双手灵巧操作任务打造一套直观、可长时间稳定运行的数据采集系统。如图1所示YUBI 采用柔性手指驱动式传动结构夹爪开合幅度完全跟随操作人员自然的捏合动作。该设计彻底消除了手枪式 UMI 存在的机械偏移问题同时为手指提供真实的触觉反馈。优化后的指尖外形让平行夹爪可完成箱体组装、线缆插接等高精度精细操作。整套 YUBI 夹爪采用3D打印件制作不含Quest 3S追踪设备时单台制造成本低于200美元便于全球研究人员复刻使用。在硬件重构之外YUBI 系统将高频VR传感器直接集成至每一台夹爪同时支持固定式与移动式两种数据采集模式。该设计既能实现高保真夹爪轨迹追踪又可规避 SLAM 技术普遍存在的轨迹漂移问题。为保障数据采集的持续高吞吐本方案将 VR 头显固定在摄像支架上而非佩戴在操作人员头部彻底消除颈部负重。移动式配置则可摆脱桌面场景限制结合全身动作与移动能力完成各类居家场景任务。依托这套全新架构我们构建了目前规模最大的基于 UMI 的双手灵巧操作数据集总时长8434小时包含120万条交互片段、覆盖119类任务。用户实验结果表明YUBI 可适配从日常家务到工业作业的各类场景运行效率与任务成功率均优于传统 UMI 夹爪。我们进一步验证了数据集的实用性训练单一策略网络并将其部署至三款双手机器人平台——UR、Franka 以及丰田半人形机器人 ELEY所有机器人均搭载 YUBI 作为统一末端执行器。为解决开源领域数据稀缺的问题本文完整开源整套 YUBI 生态包括夹爪硬件、数据采集软件与大规模数据集助力行业开展双手灵巧操作方向的复刻研究与规模化探索。本文主要贡献总结如下提出全新设备 YUBI一款采用柔性钳口传动、贴合手指形态的夹爪专门用于双手灵巧任务的交互数据采集设计适配固定式与移动式场景的VR作业方案实现高保真、可持续的数据采集发布面向多样化双手灵巧操作任务的大规模数据集总计8434小时交互数据、120万条交互片段、119类任务通过对照用户实验验证系统性能证明 YUBI 在操作灵巧度与运行效率上均有提升完成跨机器人平台验证基于数据集训练单一策略模型可直接部署至三款运动学结构不同的机械臂证明 YUBI 采集的末端执行器监督信号具备跨平台迁移能力。2. 相关研究2.1 机器人操作数据采集范式机器人操作示范数据的采集方式主要分为几大类各类方案在可扩展性、设备形态匹配度、数据质量上各有取舍。主从遥操作技术能够生成机器人可精准执行的运动轨迹但每个数据采集站点都必须配备实体机器人同时操作人员需要接受专业培训数据产出效率偏低。以人体动作重定向、第一视角视频学习为代表的以人为核心的数据采集方案更易规模化且能收录丰富的日常行为数据。但此类数据对应的观测信息与机器人动作空间之间存在巨大的形态差异。跨设备形态通用数据集、合成示范数据生成技术可进一步扩充数据覆盖范围但精细、高接触度的双手操作数据依旧十分匮乏。手持夹爪交互界面是一类互补的数据采集范式操作人员直接操控与机器人同款的末端执行器无需运行完整机器人即可采集适配机器人的夹爪姿态数据与视觉观测数据。本研究延续手持交互界面的技术路线重点面向高精度双手操作任务实现数据采集规模化。2.2 手持夹爪交互设备UMI首次推出便携式手枪式手持设备实现低成本示范数据采集。后续多款 UMI 衍生系统分别从扩大采集规模、增加触觉传感适配高接触操作、用VR追踪替代 SLAM 提升六自由度夹爪姿态精度等方向开展优化。除此之外无机器人式动作采集方案也涌现出多种硬件形态便携式动作捕捉设备、低成本外骨骼、增强现实AR辅助采集系统、视觉-触觉融合操作界面、五指灵巧手设备等。尽管相关技术持续迭代面向大规模双手数据采集仍存在两大核心痛点第一手枪式 UMI 设备会让操作人员手指远离夹爪夹持点触觉传递效果差难以实现指尖级精细控制第二追踪技术存在取舍矛盾SLAM 技术在快速运动、纹理缺失场景下易出现轨迹漂移甚至失效VR 追踪虽能提升姿态精度但要求操作人员佩戴头显长时间作业易引发颈部疲劳。YUBI 的设计针对性解决上述两大问题通过贴合手指的夹爪结构提升操作人员操作灵巧度依托优化后的VR追踪方案保障长时间连续采集最终实现高精度双手示范数据的规模化获取。3. 技术方案YUBI 的设计目标是构建海量、高质量的 UMI 架构双手灵巧操作数据集。本章介绍 YUBI 的核心设计理念以及配套的固定式、移动式摄像与VR作业架构。完整系统细节与数据处理流程见补充材料。3.1 YUBI 设备设计传统 UMI 设备均采用手枪式握把结构YUBI 摒弃该方案改用柔性、手指驱动式传动结构。现有UMI夹爪的局限性现有 UMI 设备虽能依托手持结构完成机器人部署但落地至大规模真实场景时缺陷明显设备体积笨重、重量偏大既限制灵巧操作能力也无法支持长时间连续作业。传统手枪式交互结构会在操作人员手指与夹爪夹持点之间形成机械偏移大幅削弱触觉传递效果。由于触觉反馈缺失操作人员会不自觉施加过大夹持力作为补偿同时齿轮间隙也会进一步阻碍精细动作控制。在夹爪尖端设计上现有方案多采用芬-雷Fin-Ray柔性结构可实现柔性夹持但该结构形变特性会导致定位重复性差且无法承载2千克及以上重物。这类缺陷对于工业装配任务尤为致命——装配作业既需要精准抓取螺母等小型零件也要求设备可承载重型工业部件。最后设备自重会加速操作人员手腕疲劳初代 UMI 夹爪重量约780克集成VR控制器后部分设备重量超过900克。身体负荷会造成示范轨迹出现噪声与偏移直接拉低数据集整体质量。柔性手指驱动式设计针对上述缺陷YUBI 采用柔性手指驱动传动结构夹爪一侧钳口由拇指驱动另一侧钳口由食指、中指协同驱动。每一侧钳口均可随驱动手指柔性运动夹爪开合幅度完全跟随人类自然捏合动作无电机阻力。该结构消除了操控错位问题强化触觉传递能力让操作人员充分发挥手部天生的灵巧性完成各类操作。为兼顾手指驱动的精度与约2千克的额定负载YUBI 采用高尺寸稳定性夹爪结构。集成式辅助握把作为机械支点食指、中指负责驱动钳口其余手指稳定握持设备将受力分散至整只手掌。同时优化指尖几何结构在作业范围与负载能力之间实现平衡。通过缩短力臂设备在保证结构刚度、可抓取重物的同时也能伸入狭小空间作业。为解决传统设备过重引发的手腕疲劳问题YUBI 采用小型化夹爪架构与轻量化摄像模组整机手持重量降至约319克夹爪本体200克 VR控制器119克支持长时间连续采集示范数据。整体而言YUBI 贴合手指的设计兼顾了灵巧操作与重物抓取两大能力同时降低操作人员疲劳度适配长期数据采集场景。整套夹爪基于3D打印件开源不含Quest 3S追踪设备时单台成本低于200美元。跨机器人迁移适配的运动特性除人体工学优势外贴合手指的结构也能优化操作人员的动作轨迹提升跨机器人部署效果。由于辅助握把位于钳口下方使用时夹爪自然朝下、手部处于接触点上方引导操作人员采用自上而下的作业姿态而非在桌面附近横向扫动。最终生成的运动轨迹整体高于作业平面可规避机械臂横向运动易发生碰撞的问题。这一特性让采集的示范数据可更安全地迁移至不同运动学结构的机器人平台。3.2 作业架构如图2所示整套作业架构支持操作人员双手各握持一台 YUBI 设备采集高质量数据。本方案以固定式桌面架构为核心环境稳定保障数据质量同时配套移动式架构拓展桌面以外的采集场景。固定式桌面架构集成用于六自由度夹爪追踪的VR系统Quest、监控作业空间的全局双目相机RealSense、搭载任务界面的笔记本电脑以及脚踏开关。所有视觉观测数据、运动轨迹数据、夹爪状态数据实时传输至笔记本电脑。YUBI设备配置桌面工位左右两侧各放置一台YUBI设备。每台设备搭载腕部相机、Quest控制器与用于检测夹爪开合角度的磁性编码器采样频率分别为100 Hz、80 Hz、100 Hz。所有数据流基于同一套时钟以独立节点形式发布至ROS 2拓扑图中。详细结构见3.1节。基于VR的夹爪追踪本方案采用 Meta Quest 3S 采集固定在 YUBI 上的控制器六自由度轨迹。相较于易出现漂移、尺度歧义、快速运动/纹理缺失场景下失效的 SLAM 技术该方案追踪精度更高。Quest 设备结合头显内置红外LED观测模块与控制器内置惯性测量单元IMU实现追踪该组合方案稳定性已得到验证。区别于 ActiveUMI、exUMI 等将VR头显佩戴在头部的方案本系统将重型VR头显固定在外部支架上彻底消除颈部负担同时保证控制器追踪范围全覆盖。固定式全局双目相机方案采用 RealSense D435 相机刚性固定在前置支架上以30 Hz频率采集作业空间俯视视角的RGB图像与深度图像。该部分数据主要用于筛选低质量示范片段例如文本指令与操作人员动作不匹配的样本同时结合目标检测、目标追踪、VLM 场景描述完成额外标注仅用于数据预处理环节。移动式YUBI 户外数据采集支架式配置是稳定数据采集的主力方案而 YUBI 夹爪本身为一体化独立设备可脱离桌面支架切换为移动式模式适用于无法架设固定支架的场景如各类居家任务。移动式配置将VR头显佩戴在操作人员胸前拆除全局顶视相机替换为集成在头显上的第一视角鱼眼相机。该模式支持采集包含全身运动的任务数据例如“将托盘放入洗碗机”“将书籍收纳至书架”“将衬衫挂上衣架”等场景。两种模式采用统一数据格式桌面端与移动端采集的片段可接入同一套下游处理流程。移动端详细配置见补充材料。4. 数据集数据格式规范单条交互片段存储为独立文件包含三路同步图像流两路腕部相机 RealSense全局相机、基于腕部坐标系的相对位姿以及任务与子动作元数据。每项主任务拆解为多个基础动作指令单条片段平均包含7.99个子动作。具体存储数据右手、左手平移分量 右手、左手旋转分量 旋转采用欧拉角表示同时记录左右夹爪指尖开合角度 。所有传感器原始数据以原生频率录制为 rosbag2 格式后续统一转换为 LeRobot 格式标准化采样频率为30 Hz。数据统计信息如表2所示整套系统在22组工位上完成大规模数据采集。最终数据集总时长8434小时包含120万条交互片段。数据采集工作由179名操作人员男性125人、女性54人分两月7×24小时不间断完成。本数据集规模远超以往所有 UMI 类数据集FastUMI 数据集约60小时、22类任务初代 UMI 数据集仅12小时、4类任务。数据集覆盖119类任务领域与技能分布见图3、图4。5. YUBI可用性实验本次实验招募10名男女比例均衡、无 UMI 与 YUBI 使用经验的操作人员开展对照实验。灵巧度测试为验证 YUBI 的精细操作能力操作人员使用设备依次抓取6种规格六角螺母M10~M3从大到小单次尝试将螺母从桌面转移至托盘。实验结果如图5所示两款设备抓取大尺寸螺母M8、M10的成功率均接近上限随着螺母直径减小性能差距逐步拉大。在M6规格下YUBI 成功率高出 UMI 20个百分点M5规格下高出10个百分点针对最小的M3螺母YUBI 成功率约为 UMI 的3倍。实验证明YUBI 在高精度精细任务中具备明显优势。运行效率测试实验设置三种作业条件徒手操作、使用传统 UMI、使用 YUBI共五项测试任务。操作人员分组轮换操作顺序每项组合重复五次实验统计平均完成时长。如图6所示所有任务中 YUBI 的完成速度均显著高于 UMI提速倍率区间为1.37倍多米诺摆放任务至4.19倍手机充电任务。在精细操作场景下YUBI 大幅缩小了与人类徒手操作的效率差距。6. 机器人策略模型部署为验证 YUBI 数据集对实体机器人的实用价值我们基于数据集训练 VLA 策略模型并将模型部署至三款不同结构的双手机器人平台UR、Franka、丰田 ELEY所有机器人统一搭载 YUBI 作为末端执行器。由于策略模型基于末端执行器轨迹训练而非机器人专属关节空间因此采集的数据可直接复用至不同机械臂无需额外动作重定向。本次部署仅使用腕部相机图像与轨迹数据未采用全局顶视图像。策略训练与推理本研究选用 模型作为核心VLA策略在末端执行器轨迹动作空间下开展多任务联合训练。因动作空间定义为夹爪轨迹而非机器人专属关节指令单一模型可跨设备形态部署无需重定向。模型输入为自然语言任务指令与30 Hz腕部RGB图像以Action Chunking形式预测末端执行器相对位姿单块32步。推理阶段为匹配机器人速度、加速度极限低于人类示范动作对预测的末端执行器轨迹进行降采样控制频率降至10 Hz。同时通过各机器人专属逆运动学IK求解器将末端执行器位姿指令转换为关节空间目标指令。详细训练参数见补充材料。实验结果每项任务重复执行20次统计成功率结果如表3所示。实验对比了初代UMI使用的扩散策略架构该架构在简单单臂任务上收敛速度快、表现良好但难以泛化至复杂双手任务。因此本研究选用具备预训练知识的 模型完成 YUBI 数据集训练。最终多任务VLA策略可泛化至各类任务适配球体、杯具、铰接式眼镜、彩色袜子、胶带等不同物体在“堆叠杯塔”“展开眼镜”等双手精细任务中也成功落地。实验充分证明基于YUBI训练的夹爪轨迹动作空间可跨不同运动学结构的机器人平台迁移。7. 局限性与讨论YUBI 作为全新的数据采集工具仍存在可优化方向也为后续研究留下诸多探索空间亚毫米级精度作业、触觉敏感型任务如紧密线缆插接、易碎物品操作仍存在挑战。此类场景需要针对性数据筛选、多模态传感融合以及任务专属后训练优化如何将 YUBI 数据与户外示范数据、实体机器人数据结合训练综合性能更强的 VLA 模型仍是待解决的问题利用整套8434小时海量数据开展大规模VLA预训练是极具潜力的未来研究方向。本次开源整套YUBI生态体系将有效推动以上方向的研究进展。8. 结论本文提出柔性通用双指交互界面 YUBI一款采用柔性钳口传动、贴合手指形态的新型夹爪专为双手灵巧任务的海量高质量数据采集设计。该设备依托人体工学结构兼顾精细操控与重物抓取能力同时降低操作人员疲劳度支持长时间连续数据采集。配套作业架构采用分离式VR方案实现高保真夹爪追踪结合全局顶视相机获取稳定视觉观测数据。最终构建的数据集为目前同领域规模之最总计8434小时交互数据、120万条交互片段、覆盖119类独立任务。用户对照实验证明YUBI 在精细抓取能力与整体运行效率上均优于传统设备。此外基于该数据集训练的多任务策略模型可直接部署至三款不同结构的双手机器人平台验证了采集的轨迹数据能够作为通用监督信号适配搭载同款末端执行器的各类机械臂。本文完整开源 YUBI 硬件、采集软件与数据集为机器人基础模型领域提供一套可复刻、可规模化的高保真数据采集完整方案。分工说明A. 数据集详情图8展示了8434小时数据、120万条片段中的腕部相机采样画面覆盖全部119类任务与179名操作人员男性125人、女性54人。样本在场景、物体、手部形态、光照条件上具备丰富多样性直观体现数据集覆盖广度。图9为数据采集实时监控看板可同步监测所有作业工位。看板实时展示各工位运行状态、相机预览画面、夹爪追踪质量、片段累计数量实现多站点集中监管保障数据采集质量与持续高吞吐。A.1 与现有UMI类数据集对比表4将 YUBI 与主流 UMI 风格机器人操作数据集进行横向对比明确本方案的规模化设计思路。对比目前规模最大的 UMI 类数据集 FastUMI-100KYUBI 任务数量提升约3.7倍119类 vs 32类示范样本数量提升约73倍680万条 vs 9.28万条数据总时长提升约14倍8434小时 vs 600小时。相较于触觉、音频、3D感知、灵巧手等方向的细分数据集如DexWild9500条样本YUBI 示范样本数量提升约720倍。各类多模态、灵巧手相关数据集仍处于概念验证阶段样本量普遍低于1万条多数不足3000条。主要受限因素包括柔性触觉垫易损坏、硬件与传感器成本高、多指遥操作设备研发难度大等。YUBI 聚焦工程可规模化方向设备轻量化、贴合手指设计3D打印方案成本低廉可承受数千小时连续作业上手门槛低操作人员可快速达到高产出效率。除规模优势外本数据集全部为双手操作数据是桌面精细作业、Humanoid落地的核心数据基础。整套数据集融合真实双手灵巧任务的多样性与训练机器人基础模型所需的数据体量。A.2 数据预处理标定校准不同作业工位、不同采集时段的夹爪轨迹坐标系不统一因此通过专用标定流程将所有轨迹对齐至统一桌面坐标系。在所有工位的同一位置放置棋盘格标定板利用 YUBI 腕部相机与桌面全局相机同步拍摄求解 Quest 追踪坐标系与桌面坐标系之间的刚体变换矩阵。基于该矩阵所有追踪轨迹均可统一转换为以桌面为原点的标准坐标系。数据过滤通过多级检测机制剔除不合格片段短时片段过滤剔除因操作人员误触脚踏开关产生的过短片段信号卡死检测识别三类异常全程姿态无变化、连续多帧平移量低于噪声阈值、夹爪开合角度全程无波动运动合理性检测剔除单帧平移量超出合理速度阈值、单帧旋转角度大于的异常片段追踪状态过滤腕部内翻等动作会遮挡控制器红外LED造成Quest追踪失效。系统读取每帧追踪状态标识剔除追踪异常帧占比过高的片段彻底规避遮挡引发的轨迹漂移。A.3 动作分段示例单条 YUBI 交互片段会拆解为多个基础动作单元对应片段内的子任务。采集阶段依靠脚踏开关实现免手部操作的动作边界划分后处理阶段再做精细化修正。图13~图15为典型片段示例结合腕部相机画面、文本子动作标签、时间轴展示数据集的任务结构多样性从简单的单次拾取放置到多步骤组装、书写等复杂组合任务。B. 作业架构详情B.1 固定式支架与任务界面工位框架中央搭载笔记本电脑作为系统中枢与任务交互界面。设备汇总所有传感器数据流同时向操作人员实时展示画面、3D轨迹、任务指令与设备状态。双手均握持夹爪是双手操作的常态无法使用按键、触屏、键盘等常规设备标注动作边界。本方案在桌面下方加装脚踏开关用于启停动作分段、确认片段保存。B.2 移动式配置移动式 YUBI 设备脱离桌面支架后将 VR 头显通过腰带佩戴在操作人员胸前其余硬件同步适配移动场景拆除固定全局相机替换为集成在头显上的第一视角相机移动状态下无法使用脚踏开关改为双击夹爪触发动作分段数据处理主机收纳在挎包中腕部相机与夹爪硬件保持有线连接。两种配置采用完全一致的数据格式桌面端与移动端片段可无缝接入同一套下游流程。适用场景移动式配置可采集桌面支架无法覆盖的场景例如杯具堆叠、厨具收纳、餐具归位、书籍上架、衣物悬挂、衣物折叠等厨房、客厅、卧室日常任务。采集场景、物体位置、光照、作业范围均与实体机器人真实运行环境一致。未来展望佩戴在胸前的VR设备可采集操作人员全身三维轨迹该数据可服务于固定基座双臂机械臂、轮式服务机器人、人形机器人等多种设备。这类场景需要人体与末端执行器协同运动移动式 YUBI 采集的片段可直接提供对应观测数据与轨迹信息。轻量化、高稳定性的移动式 YUBI 系统是后续重点研究方向。C. 实验细节C.1 可用性实验流程灵巧度测试实验流程如图18所示。操作人员使用 UMI 或 YUBI 依次抓取 M10~M3 六种标准六角螺母从大到小完成拾取与放置。规则为每种螺母仅允许单次尝试抓取或放置失败即判定为无效直接进入下一组测试。实验共10名男女均衡的操作人员每人完成五组重复测试。结合图5数据分析M8、M10大尺寸螺母场景下两款设备成功率均高于94%螺母直径减小后性能差距拉大。M6规格下 YUBI 成功率高出20个百分点M5规格高出10个百分点最小M3螺母场景中YUBI 成功率44%UMI仅14%前者为后者的3倍左右。M4规格出现小幅性能回落推测是螺母尺寸与指尖曲面几何不匹配造成的接触异常并非设备精度下降——UMI 在 M6至M5区间也出现同类回落现象印证该判断。整体实验证明 YUBI 更适配高精度精细任务。运行效率测试实验选取五项不同任务分别测试徒手操作、UMI、YUBI三种模式。每名操作人员分配两项任务每种设备任务组合重复五次统计平均完成时长。总计10名男女均衡的操作人员每项任务分配四名测试者。为消除操作顺序带来的偏差操作人员分为两组一组操作顺序为 徒手 → UMI → YUBI另一组顺序相反。结合图6结果所有任务中 YUBI 完成速度均优于 UMI提速倍率区间1.37倍多米诺摆放~4.19倍手机充电。在手机充电接口插接、白板书写精细工具操控等强精细操作任务中YUBI 大幅缩小了与人类徒手操作的效率差距。C.2 机器人平台介绍本次部署选用三款运动学结构完全不同的双手机器人UR、Franka、丰田半人形机器人 ELEY。所有机器人拆除原生夹爪统一换装 YUBI 末端执行器并搭载同款腕部相机保证部署端与数据采集端设备一致。数据采集阶段 YUBI 为纯手指驱动无源结构部署阶段加装电机驱动齿轮组通过电机指令控制钳口开合。采集得到的左右夹爪开合角度 、 经线性映射转换为电机控制指令。夹爪安装对齐要求机器人腕部旋转轴严格穿过夹爪夹持点与手指作业方向保持一致。该安装方式下腕部纯旋转动作只会让指尖原地转动不会产生偏心摆动指尖位于腕部转轴中心机械臂无需额外运动补偿可充分利用自身运动范围复现采集的末端轨迹。C.3 策略训练与推理参数基于 YUBI 示范数据微调 模型六项任务对应的训练样本数量分别为投球入筐408条、堆叠杯塔275条、展开眼镜194条、袜子拾取放置1903条、胶带入盒1691条、杯具摆放3985条。采用任务均衡采样策略避免模型对单一任务过拟合或欠拟合。UR机器人实验迭代30000轮批次大小256单动作分块长度16Franka、ELEY机器人实验迭代150000轮批次大小64单动作分块长度32。C.4 与扩散策略的对比实验在双手UR机器人平台上对比 模型与初代UMI使用的扩散策略DP架构。两款模型均基于YUBI数据按任务单独微调实验结果如表5所示。实验结论最简单的投球任务中两款模型均达到满分堆叠杯塔存在接触受力场景下性能出现差距不对称双手任务“展开眼镜”中扩散策略完全失效 仍可保持有效输出。该结果解释了本研究选用 的原因同等训练数据下从零训练的扩散解码模块仅能应对简单任务缺乏复杂场景所需的先验知识。而 依托海量机器人数据完成预训练在视觉表征、接触感知、末端轨迹预测上具备强先验能力。因此全文统一采用 作为核心策略模型将扩散策略作为性能基准下限。D. 开源说明为便于同行复现与二次开发本文完整开源整套 YUBI 生态硬件图纸、数据采集软件、完整数据集。D.1 硬件开源内容硬件开源包包含整套设备的设计文件YUBI 夹爪、机器人搭载版电动夹爪、固定式采集支架、移动式采集支架的STEP三维装配图纸所有3D打印零件STL文件物料清单CSV格式含采购说明夹爪与支架装配说明书PDF三款实验机器人对应的转接法兰图纸。硬件基于CERN Open Hardware Licence v2开源允许自由复刻与二次修改。D.2 软件开源内容采集软件基于Python ROS 2节点、ESP32-C6固件开发整体打包为多容器Docker镜像开源协议为Apache License 2.0。配套Web管理平台分为前端TypeScript与后端Go用于数据采集运维。软件包包含所有传感器驱动、启动配置文件适配腕部相机、全局RealSense相机、头戴式USB相机、夹爪编码器固件、脚踏开关、Meta Quest 3S通信模块。同时提供设备标定、环境配置工具。ROS 2录制后端将同步数据流保存为rosbag2格式并上传至兼容S3协议的存储服务Rust语言编写的数据处理流水线按照A.2节多级过滤规则清洗数据并将格式转换为LeRobot。
8434 小时级双手灵巧操作数据集与轻量化 YUBI 夹爪
发布时间:2026/7/6 4:01:18
本文提出YUBI, Yielding Universal Bidigital Interface这是一款贴合手指形态的夹爪设备可为双手灵巧操作任务开展直观、符合人体工学且可规模化的数据采集工作。UMI等手持数据采集设备虽能实现低成本数据收集但其传统手枪式握把结构在精细灵巧操作任务中存在人体工学缺陷与使用不便等问题。针对上述问题YUBI 采用全新设计思路依托柔性、手指驱动式驱动结构将人类手指动作直接映射至夹爪钳口运动。本系统为 YUBI 设备配套集成基于虚拟现实VR的夹爪六自由度6 DoF追踪模块可高精度采集运动轨迹数据。依托该系统我们构建了基于 UMI 架构的超大尺度数据集总时长8434小时包含120万条交互片段、覆盖119类任务。与此同时夹爪的追踪精度也是一大难题。部分研究采用SLAM实现追踪后续不少系统转而搭配VR设备提升夹爪追踪精度——操作人员佩戴VR头显开展作业。但长期佩戴头显会给颈部带来巨大负担导致单次作业时长受限、整体运行效率偏低设备连续工作时长通常仅能达到30分钟。针对以上痛点本文重新设计手持式 UMI 设备提出贴合手指形态的交互界面 YUBI为双手灵巧操作任务打造一套直观、可长时间稳定运行的数据采集系统。如图1所示YUBI 采用柔性手指驱动式传动结构夹爪开合幅度完全跟随操作人员自然的捏合动作。该设计彻底消除了手枪式 UMI 存在的机械偏移问题同时为手指提供真实的触觉反馈。优化后的指尖外形让平行夹爪可完成箱体组装、线缆插接等高精度精细操作。整套 YUBI 夹爪采用3D打印件制作不含Quest 3S追踪设备时单台制造成本低于200美元便于全球研究人员复刻使用。在硬件重构之外YUBI 系统将高频VR传感器直接集成至每一台夹爪同时支持固定式与移动式两种数据采集模式。该设计既能实现高保真夹爪轨迹追踪又可规避 SLAM 技术普遍存在的轨迹漂移问题。为保障数据采集的持续高吞吐本方案将 VR 头显固定在摄像支架上而非佩戴在操作人员头部彻底消除颈部负重。移动式配置则可摆脱桌面场景限制结合全身动作与移动能力完成各类居家场景任务。依托这套全新架构我们构建了目前规模最大的基于 UMI 的双手灵巧操作数据集总时长8434小时包含120万条交互片段、覆盖119类任务。用户实验结果表明YUBI 可适配从日常家务到工业作业的各类场景运行效率与任务成功率均优于传统 UMI 夹爪。我们进一步验证了数据集的实用性训练单一策略网络并将其部署至三款双手机器人平台——UR、Franka 以及丰田半人形机器人 ELEY所有机器人均搭载 YUBI 作为统一末端执行器。为解决开源领域数据稀缺的问题本文完整开源整套 YUBI 生态包括夹爪硬件、数据采集软件与大规模数据集助力行业开展双手灵巧操作方向的复刻研究与规模化探索。本文主要贡献总结如下提出全新设备 YUBI一款采用柔性钳口传动、贴合手指形态的夹爪专门用于双手灵巧任务的交互数据采集设计适配固定式与移动式场景的VR作业方案实现高保真、可持续的数据采集发布面向多样化双手灵巧操作任务的大规模数据集总计8434小时交互数据、120万条交互片段、119类任务通过对照用户实验验证系统性能证明 YUBI 在操作灵巧度与运行效率上均有提升完成跨机器人平台验证基于数据集训练单一策略模型可直接部署至三款运动学结构不同的机械臂证明 YUBI 采集的末端执行器监督信号具备跨平台迁移能力。2. 相关研究2.1 机器人操作数据采集范式机器人操作示范数据的采集方式主要分为几大类各类方案在可扩展性、设备形态匹配度、数据质量上各有取舍。主从遥操作技术能够生成机器人可精准执行的运动轨迹但每个数据采集站点都必须配备实体机器人同时操作人员需要接受专业培训数据产出效率偏低。以人体动作重定向、第一视角视频学习为代表的以人为核心的数据采集方案更易规模化且能收录丰富的日常行为数据。但此类数据对应的观测信息与机器人动作空间之间存在巨大的形态差异。跨设备形态通用数据集、合成示范数据生成技术可进一步扩充数据覆盖范围但精细、高接触度的双手操作数据依旧十分匮乏。手持夹爪交互界面是一类互补的数据采集范式操作人员直接操控与机器人同款的末端执行器无需运行完整机器人即可采集适配机器人的夹爪姿态数据与视觉观测数据。本研究延续手持交互界面的技术路线重点面向高精度双手操作任务实现数据采集规模化。2.2 手持夹爪交互设备UMI首次推出便携式手枪式手持设备实现低成本示范数据采集。后续多款 UMI 衍生系统分别从扩大采集规模、增加触觉传感适配高接触操作、用VR追踪替代 SLAM 提升六自由度夹爪姿态精度等方向开展优化。除此之外无机器人式动作采集方案也涌现出多种硬件形态便携式动作捕捉设备、低成本外骨骼、增强现实AR辅助采集系统、视觉-触觉融合操作界面、五指灵巧手设备等。尽管相关技术持续迭代面向大规模双手数据采集仍存在两大核心痛点第一手枪式 UMI 设备会让操作人员手指远离夹爪夹持点触觉传递效果差难以实现指尖级精细控制第二追踪技术存在取舍矛盾SLAM 技术在快速运动、纹理缺失场景下易出现轨迹漂移甚至失效VR 追踪虽能提升姿态精度但要求操作人员佩戴头显长时间作业易引发颈部疲劳。YUBI 的设计针对性解决上述两大问题通过贴合手指的夹爪结构提升操作人员操作灵巧度依托优化后的VR追踪方案保障长时间连续采集最终实现高精度双手示范数据的规模化获取。3. 技术方案YUBI 的设计目标是构建海量、高质量的 UMI 架构双手灵巧操作数据集。本章介绍 YUBI 的核心设计理念以及配套的固定式、移动式摄像与VR作业架构。完整系统细节与数据处理流程见补充材料。3.1 YUBI 设备设计传统 UMI 设备均采用手枪式握把结构YUBI 摒弃该方案改用柔性、手指驱动式传动结构。现有UMI夹爪的局限性现有 UMI 设备虽能依托手持结构完成机器人部署但落地至大规模真实场景时缺陷明显设备体积笨重、重量偏大既限制灵巧操作能力也无法支持长时间连续作业。传统手枪式交互结构会在操作人员手指与夹爪夹持点之间形成机械偏移大幅削弱触觉传递效果。由于触觉反馈缺失操作人员会不自觉施加过大夹持力作为补偿同时齿轮间隙也会进一步阻碍精细动作控制。在夹爪尖端设计上现有方案多采用芬-雷Fin-Ray柔性结构可实现柔性夹持但该结构形变特性会导致定位重复性差且无法承载2千克及以上重物。这类缺陷对于工业装配任务尤为致命——装配作业既需要精准抓取螺母等小型零件也要求设备可承载重型工业部件。最后设备自重会加速操作人员手腕疲劳初代 UMI 夹爪重量约780克集成VR控制器后部分设备重量超过900克。身体负荷会造成示范轨迹出现噪声与偏移直接拉低数据集整体质量。柔性手指驱动式设计针对上述缺陷YUBI 采用柔性手指驱动传动结构夹爪一侧钳口由拇指驱动另一侧钳口由食指、中指协同驱动。每一侧钳口均可随驱动手指柔性运动夹爪开合幅度完全跟随人类自然捏合动作无电机阻力。该结构消除了操控错位问题强化触觉传递能力让操作人员充分发挥手部天生的灵巧性完成各类操作。为兼顾手指驱动的精度与约2千克的额定负载YUBI 采用高尺寸稳定性夹爪结构。集成式辅助握把作为机械支点食指、中指负责驱动钳口其余手指稳定握持设备将受力分散至整只手掌。同时优化指尖几何结构在作业范围与负载能力之间实现平衡。通过缩短力臂设备在保证结构刚度、可抓取重物的同时也能伸入狭小空间作业。为解决传统设备过重引发的手腕疲劳问题YUBI 采用小型化夹爪架构与轻量化摄像模组整机手持重量降至约319克夹爪本体200克 VR控制器119克支持长时间连续采集示范数据。整体而言YUBI 贴合手指的设计兼顾了灵巧操作与重物抓取两大能力同时降低操作人员疲劳度适配长期数据采集场景。整套夹爪基于3D打印件开源不含Quest 3S追踪设备时单台成本低于200美元。跨机器人迁移适配的运动特性除人体工学优势外贴合手指的结构也能优化操作人员的动作轨迹提升跨机器人部署效果。由于辅助握把位于钳口下方使用时夹爪自然朝下、手部处于接触点上方引导操作人员采用自上而下的作业姿态而非在桌面附近横向扫动。最终生成的运动轨迹整体高于作业平面可规避机械臂横向运动易发生碰撞的问题。这一特性让采集的示范数据可更安全地迁移至不同运动学结构的机器人平台。3.2 作业架构如图2所示整套作业架构支持操作人员双手各握持一台 YUBI 设备采集高质量数据。本方案以固定式桌面架构为核心环境稳定保障数据质量同时配套移动式架构拓展桌面以外的采集场景。固定式桌面架构集成用于六自由度夹爪追踪的VR系统Quest、监控作业空间的全局双目相机RealSense、搭载任务界面的笔记本电脑以及脚踏开关。所有视觉观测数据、运动轨迹数据、夹爪状态数据实时传输至笔记本电脑。YUBI设备配置桌面工位左右两侧各放置一台YUBI设备。每台设备搭载腕部相机、Quest控制器与用于检测夹爪开合角度的磁性编码器采样频率分别为100 Hz、80 Hz、100 Hz。所有数据流基于同一套时钟以独立节点形式发布至ROS 2拓扑图中。详细结构见3.1节。基于VR的夹爪追踪本方案采用 Meta Quest 3S 采集固定在 YUBI 上的控制器六自由度轨迹。相较于易出现漂移、尺度歧义、快速运动/纹理缺失场景下失效的 SLAM 技术该方案追踪精度更高。Quest 设备结合头显内置红外LED观测模块与控制器内置惯性测量单元IMU实现追踪该组合方案稳定性已得到验证。区别于 ActiveUMI、exUMI 等将VR头显佩戴在头部的方案本系统将重型VR头显固定在外部支架上彻底消除颈部负担同时保证控制器追踪范围全覆盖。固定式全局双目相机方案采用 RealSense D435 相机刚性固定在前置支架上以30 Hz频率采集作业空间俯视视角的RGB图像与深度图像。该部分数据主要用于筛选低质量示范片段例如文本指令与操作人员动作不匹配的样本同时结合目标检测、目标追踪、VLM 场景描述完成额外标注仅用于数据预处理环节。移动式YUBI 户外数据采集支架式配置是稳定数据采集的主力方案而 YUBI 夹爪本身为一体化独立设备可脱离桌面支架切换为移动式模式适用于无法架设固定支架的场景如各类居家任务。移动式配置将VR头显佩戴在操作人员胸前拆除全局顶视相机替换为集成在头显上的第一视角鱼眼相机。该模式支持采集包含全身运动的任务数据例如“将托盘放入洗碗机”“将书籍收纳至书架”“将衬衫挂上衣架”等场景。两种模式采用统一数据格式桌面端与移动端采集的片段可接入同一套下游处理流程。移动端详细配置见补充材料。4. 数据集数据格式规范单条交互片段存储为独立文件包含三路同步图像流两路腕部相机 RealSense全局相机、基于腕部坐标系的相对位姿以及任务与子动作元数据。每项主任务拆解为多个基础动作指令单条片段平均包含7.99个子动作。具体存储数据右手、左手平移分量 右手、左手旋转分量 旋转采用欧拉角表示同时记录左右夹爪指尖开合角度 。所有传感器原始数据以原生频率录制为 rosbag2 格式后续统一转换为 LeRobot 格式标准化采样频率为30 Hz。数据统计信息如表2所示整套系统在22组工位上完成大规模数据采集。最终数据集总时长8434小时包含120万条交互片段。数据采集工作由179名操作人员男性125人、女性54人分两月7×24小时不间断完成。本数据集规模远超以往所有 UMI 类数据集FastUMI 数据集约60小时、22类任务初代 UMI 数据集仅12小时、4类任务。数据集覆盖119类任务领域与技能分布见图3、图4。5. YUBI可用性实验本次实验招募10名男女比例均衡、无 UMI 与 YUBI 使用经验的操作人员开展对照实验。灵巧度测试为验证 YUBI 的精细操作能力操作人员使用设备依次抓取6种规格六角螺母M10~M3从大到小单次尝试将螺母从桌面转移至托盘。实验结果如图5所示两款设备抓取大尺寸螺母M8、M10的成功率均接近上限随着螺母直径减小性能差距逐步拉大。在M6规格下YUBI 成功率高出 UMI 20个百分点M5规格下高出10个百分点针对最小的M3螺母YUBI 成功率约为 UMI 的3倍。实验证明YUBI 在高精度精细任务中具备明显优势。运行效率测试实验设置三种作业条件徒手操作、使用传统 UMI、使用 YUBI共五项测试任务。操作人员分组轮换操作顺序每项组合重复五次实验统计平均完成时长。如图6所示所有任务中 YUBI 的完成速度均显著高于 UMI提速倍率区间为1.37倍多米诺摆放任务至4.19倍手机充电任务。在精细操作场景下YUBI 大幅缩小了与人类徒手操作的效率差距。6. 机器人策略模型部署为验证 YUBI 数据集对实体机器人的实用价值我们基于数据集训练 VLA 策略模型并将模型部署至三款不同结构的双手机器人平台UR、Franka、丰田 ELEY所有机器人统一搭载 YUBI 作为末端执行器。由于策略模型基于末端执行器轨迹训练而非机器人专属关节空间因此采集的数据可直接复用至不同机械臂无需额外动作重定向。本次部署仅使用腕部相机图像与轨迹数据未采用全局顶视图像。策略训练与推理本研究选用 模型作为核心VLA策略在末端执行器轨迹动作空间下开展多任务联合训练。因动作空间定义为夹爪轨迹而非机器人专属关节指令单一模型可跨设备形态部署无需重定向。模型输入为自然语言任务指令与30 Hz腕部RGB图像以Action Chunking形式预测末端执行器相对位姿单块32步。推理阶段为匹配机器人速度、加速度极限低于人类示范动作对预测的末端执行器轨迹进行降采样控制频率降至10 Hz。同时通过各机器人专属逆运动学IK求解器将末端执行器位姿指令转换为关节空间目标指令。详细训练参数见补充材料。实验结果每项任务重复执行20次统计成功率结果如表3所示。实验对比了初代UMI使用的扩散策略架构该架构在简单单臂任务上收敛速度快、表现良好但难以泛化至复杂双手任务。因此本研究选用具备预训练知识的 模型完成 YUBI 数据集训练。最终多任务VLA策略可泛化至各类任务适配球体、杯具、铰接式眼镜、彩色袜子、胶带等不同物体在“堆叠杯塔”“展开眼镜”等双手精细任务中也成功落地。实验充分证明基于YUBI训练的夹爪轨迹动作空间可跨不同运动学结构的机器人平台迁移。7. 局限性与讨论YUBI 作为全新的数据采集工具仍存在可优化方向也为后续研究留下诸多探索空间亚毫米级精度作业、触觉敏感型任务如紧密线缆插接、易碎物品操作仍存在挑战。此类场景需要针对性数据筛选、多模态传感融合以及任务专属后训练优化如何将 YUBI 数据与户外示范数据、实体机器人数据结合训练综合性能更强的 VLA 模型仍是待解决的问题利用整套8434小时海量数据开展大规模VLA预训练是极具潜力的未来研究方向。本次开源整套YUBI生态体系将有效推动以上方向的研究进展。8. 结论本文提出柔性通用双指交互界面 YUBI一款采用柔性钳口传动、贴合手指形态的新型夹爪专为双手灵巧任务的海量高质量数据采集设计。该设备依托人体工学结构兼顾精细操控与重物抓取能力同时降低操作人员疲劳度支持长时间连续数据采集。配套作业架构采用分离式VR方案实现高保真夹爪追踪结合全局顶视相机获取稳定视觉观测数据。最终构建的数据集为目前同领域规模之最总计8434小时交互数据、120万条交互片段、覆盖119类独立任务。用户对照实验证明YUBI 在精细抓取能力与整体运行效率上均优于传统设备。此外基于该数据集训练的多任务策略模型可直接部署至三款不同结构的双手机器人平台验证了采集的轨迹数据能够作为通用监督信号适配搭载同款末端执行器的各类机械臂。本文完整开源 YUBI 硬件、采集软件与数据集为机器人基础模型领域提供一套可复刻、可规模化的高保真数据采集完整方案。分工说明A. 数据集详情图8展示了8434小时数据、120万条片段中的腕部相机采样画面覆盖全部119类任务与179名操作人员男性125人、女性54人。样本在场景、物体、手部形态、光照条件上具备丰富多样性直观体现数据集覆盖广度。图9为数据采集实时监控看板可同步监测所有作业工位。看板实时展示各工位运行状态、相机预览画面、夹爪追踪质量、片段累计数量实现多站点集中监管保障数据采集质量与持续高吞吐。A.1 与现有UMI类数据集对比表4将 YUBI 与主流 UMI 风格机器人操作数据集进行横向对比明确本方案的规模化设计思路。对比目前规模最大的 UMI 类数据集 FastUMI-100KYUBI 任务数量提升约3.7倍119类 vs 32类示范样本数量提升约73倍680万条 vs 9.28万条数据总时长提升约14倍8434小时 vs 600小时。相较于触觉、音频、3D感知、灵巧手等方向的细分数据集如DexWild9500条样本YUBI 示范样本数量提升约720倍。各类多模态、灵巧手相关数据集仍处于概念验证阶段样本量普遍低于1万条多数不足3000条。主要受限因素包括柔性触觉垫易损坏、硬件与传感器成本高、多指遥操作设备研发难度大等。YUBI 聚焦工程可规模化方向设备轻量化、贴合手指设计3D打印方案成本低廉可承受数千小时连续作业上手门槛低操作人员可快速达到高产出效率。除规模优势外本数据集全部为双手操作数据是桌面精细作业、Humanoid落地的核心数据基础。整套数据集融合真实双手灵巧任务的多样性与训练机器人基础模型所需的数据体量。A.2 数据预处理标定校准不同作业工位、不同采集时段的夹爪轨迹坐标系不统一因此通过专用标定流程将所有轨迹对齐至统一桌面坐标系。在所有工位的同一位置放置棋盘格标定板利用 YUBI 腕部相机与桌面全局相机同步拍摄求解 Quest 追踪坐标系与桌面坐标系之间的刚体变换矩阵。基于该矩阵所有追踪轨迹均可统一转换为以桌面为原点的标准坐标系。数据过滤通过多级检测机制剔除不合格片段短时片段过滤剔除因操作人员误触脚踏开关产生的过短片段信号卡死检测识别三类异常全程姿态无变化、连续多帧平移量低于噪声阈值、夹爪开合角度全程无波动运动合理性检测剔除单帧平移量超出合理速度阈值、单帧旋转角度大于的异常片段追踪状态过滤腕部内翻等动作会遮挡控制器红外LED造成Quest追踪失效。系统读取每帧追踪状态标识剔除追踪异常帧占比过高的片段彻底规避遮挡引发的轨迹漂移。A.3 动作分段示例单条 YUBI 交互片段会拆解为多个基础动作单元对应片段内的子任务。采集阶段依靠脚踏开关实现免手部操作的动作边界划分后处理阶段再做精细化修正。图13~图15为典型片段示例结合腕部相机画面、文本子动作标签、时间轴展示数据集的任务结构多样性从简单的单次拾取放置到多步骤组装、书写等复杂组合任务。B. 作业架构详情B.1 固定式支架与任务界面工位框架中央搭载笔记本电脑作为系统中枢与任务交互界面。设备汇总所有传感器数据流同时向操作人员实时展示画面、3D轨迹、任务指令与设备状态。双手均握持夹爪是双手操作的常态无法使用按键、触屏、键盘等常规设备标注动作边界。本方案在桌面下方加装脚踏开关用于启停动作分段、确认片段保存。B.2 移动式配置移动式 YUBI 设备脱离桌面支架后将 VR 头显通过腰带佩戴在操作人员胸前其余硬件同步适配移动场景拆除固定全局相机替换为集成在头显上的第一视角相机移动状态下无法使用脚踏开关改为双击夹爪触发动作分段数据处理主机收纳在挎包中腕部相机与夹爪硬件保持有线连接。两种配置采用完全一致的数据格式桌面端与移动端片段可无缝接入同一套下游流程。适用场景移动式配置可采集桌面支架无法覆盖的场景例如杯具堆叠、厨具收纳、餐具归位、书籍上架、衣物悬挂、衣物折叠等厨房、客厅、卧室日常任务。采集场景、物体位置、光照、作业范围均与实体机器人真实运行环境一致。未来展望佩戴在胸前的VR设备可采集操作人员全身三维轨迹该数据可服务于固定基座双臂机械臂、轮式服务机器人、人形机器人等多种设备。这类场景需要人体与末端执行器协同运动移动式 YUBI 采集的片段可直接提供对应观测数据与轨迹信息。轻量化、高稳定性的移动式 YUBI 系统是后续重点研究方向。C. 实验细节C.1 可用性实验流程灵巧度测试实验流程如图18所示。操作人员使用 UMI 或 YUBI 依次抓取 M10~M3 六种标准六角螺母从大到小完成拾取与放置。规则为每种螺母仅允许单次尝试抓取或放置失败即判定为无效直接进入下一组测试。实验共10名男女均衡的操作人员每人完成五组重复测试。结合图5数据分析M8、M10大尺寸螺母场景下两款设备成功率均高于94%螺母直径减小后性能差距拉大。M6规格下 YUBI 成功率高出20个百分点M5规格高出10个百分点最小M3螺母场景中YUBI 成功率44%UMI仅14%前者为后者的3倍左右。M4规格出现小幅性能回落推测是螺母尺寸与指尖曲面几何不匹配造成的接触异常并非设备精度下降——UMI 在 M6至M5区间也出现同类回落现象印证该判断。整体实验证明 YUBI 更适配高精度精细任务。运行效率测试实验选取五项不同任务分别测试徒手操作、UMI、YUBI三种模式。每名操作人员分配两项任务每种设备任务组合重复五次统计平均完成时长。总计10名男女均衡的操作人员每项任务分配四名测试者。为消除操作顺序带来的偏差操作人员分为两组一组操作顺序为 徒手 → UMI → YUBI另一组顺序相反。结合图6结果所有任务中 YUBI 完成速度均优于 UMI提速倍率区间1.37倍多米诺摆放~4.19倍手机充电。在手机充电接口插接、白板书写精细工具操控等强精细操作任务中YUBI 大幅缩小了与人类徒手操作的效率差距。C.2 机器人平台介绍本次部署选用三款运动学结构完全不同的双手机器人UR、Franka、丰田半人形机器人 ELEY。所有机器人拆除原生夹爪统一换装 YUBI 末端执行器并搭载同款腕部相机保证部署端与数据采集端设备一致。数据采集阶段 YUBI 为纯手指驱动无源结构部署阶段加装电机驱动齿轮组通过电机指令控制钳口开合。采集得到的左右夹爪开合角度 、 经线性映射转换为电机控制指令。夹爪安装对齐要求机器人腕部旋转轴严格穿过夹爪夹持点与手指作业方向保持一致。该安装方式下腕部纯旋转动作只会让指尖原地转动不会产生偏心摆动指尖位于腕部转轴中心机械臂无需额外运动补偿可充分利用自身运动范围复现采集的末端轨迹。C.3 策略训练与推理参数基于 YUBI 示范数据微调 模型六项任务对应的训练样本数量分别为投球入筐408条、堆叠杯塔275条、展开眼镜194条、袜子拾取放置1903条、胶带入盒1691条、杯具摆放3985条。采用任务均衡采样策略避免模型对单一任务过拟合或欠拟合。UR机器人实验迭代30000轮批次大小256单动作分块长度16Franka、ELEY机器人实验迭代150000轮批次大小64单动作分块长度32。C.4 与扩散策略的对比实验在双手UR机器人平台上对比 模型与初代UMI使用的扩散策略DP架构。两款模型均基于YUBI数据按任务单独微调实验结果如表5所示。实验结论最简单的投球任务中两款模型均达到满分堆叠杯塔存在接触受力场景下性能出现差距不对称双手任务“展开眼镜”中扩散策略完全失效 仍可保持有效输出。该结果解释了本研究选用 的原因同等训练数据下从零训练的扩散解码模块仅能应对简单任务缺乏复杂场景所需的先验知识。而 依托海量机器人数据完成预训练在视觉表征、接触感知、末端轨迹预测上具备强先验能力。因此全文统一采用 作为核心策略模型将扩散策略作为性能基准下限。D. 开源说明为便于同行复现与二次开发本文完整开源整套 YUBI 生态硬件图纸、数据采集软件、完整数据集。D.1 硬件开源内容硬件开源包包含整套设备的设计文件YUBI 夹爪、机器人搭载版电动夹爪、固定式采集支架、移动式采集支架的STEP三维装配图纸所有3D打印零件STL文件物料清单CSV格式含采购说明夹爪与支架装配说明书PDF三款实验机器人对应的转接法兰图纸。硬件基于CERN Open Hardware Licence v2开源允许自由复刻与二次修改。D.2 软件开源内容采集软件基于Python ROS 2节点、ESP32-C6固件开发整体打包为多容器Docker镜像开源协议为Apache License 2.0。配套Web管理平台分为前端TypeScript与后端Go用于数据采集运维。软件包包含所有传感器驱动、启动配置文件适配腕部相机、全局RealSense相机、头戴式USB相机、夹爪编码器固件、脚踏开关、Meta Quest 3S通信模块。同时提供设备标定、环境配置工具。ROS 2录制后端将同步数据流保存为rosbag2格式并上传至兼容S3协议的存储服务Rust语言编写的数据处理流水线按照A.2节多级过滤规则清洗数据并将格式转换为LeRobot。