昨天我们讲的是触觉数据集和评测TacVerse、RCT、RoboTacDex 都在追问一个问题触觉泛化到底该怎么测今天往前走一步如果触觉模型真的要泛化光有评测还不够还要回答一个更基础的问题不同触觉传感器数据能不能进入同一个 shared tactile latent space这也是 2026 年 6 月底连续两篇新论文共同指向的问题。一篇是 6 月 29 日的Heterogeneous Tactile Transformer, HTT来自 NUS、CMU 等团队另一篇是 6 月 30 日的TactX: Learning Shared Tactile Representations Across Diverse Sensors来自 UC San Diego、Seoul National University、Amazon FAR 等团队。这两篇都不满足于“给每个传感器单独训练一个 encoder”。它们真正想做的是让 GelSight / 9DTact / Xela / TAC-02 / Daimon / eFlesh / FlexiTac 这些输出形式完全不同的触觉传感器最后能映射到某个可复用的共同表征空间里。如果用一句话概括今天的主题触觉基础模型的第一道门槛不是把触觉接进 VLA而是先让不同触觉传感器说同一种语言。为什么触觉比视觉更难做“通用编码器”视觉模型能走向 ImageNet、CLIP、DINO、SAM一个重要前提是相机之间虽然有差异但输出形式大体一致都是二维图像。触觉不是这样。不同触觉传感器之间差异不只是分辨率、噪声、标定方式而是物理测量原理就不同vision-based tactile sensor 看的是弹性体表面的光学形变。magnetic tactile sensor 看的是磁场变化。resistive tactile sensor 看的是压力导致的电阻变化。taxel array sensor 看的是分布式触觉单元的时序信号。也就是说触觉传感器之间不是“不同相机”更像是“相机、麦克风、压力板、磁力计”之间要互相对齐。这就带来一个很现实的问题如果机器人 A 用 GelSight 训练了一个策略机器人 B 换成 Xela 或 FlexiTac还能不能复用这个策略如果实验室 A 采了很多 optical tactile data实验室 B 采了很多 array tactile data这些数据能不能汇入一个共同触觉模型HTT 和 TactX 就是在回答这个问题。两篇论文先放在一张表里论文发布时间核心路线传感器范围主要目标HTT2026-06-29sensor-specific encoders shared transformer trunkoptical array-based训练一个异构触觉 backboneTactX2026-06-30modality-specific encoder/decoder shared 16-D latentvision-based magnetic resistive让策略跨传感器 zero-shot transfer二者很像但侧重点不同HTT 更像“触觉版 backbone”路线它用大规模 paired tactile data 预训练目标是得到一个可以服务感知任务和操作任务的共享触觉表征。TactX 更像“触觉传感器适配层”路线它把不同物理原理的传感器压进一个低维 latent让同一个 tactile-conditioned policy 可以换传感器部署。论文一HTT想做异构触觉传感器的 backbone论文Heterogeneous Tactile Transformer作者Jianxin Bi, Qiang Wang, Jayaram Reddy, Kelvin Lin, Soibkhon Khajikhanov, Ruihan Gao, Harold Soh作者单位National University of SingaporeCarnegie Mellon UniversitySmart Systems Institute, NUSarXiv2606.299482026 年 6 月 29 日HTT 框架图HTT 的出发点很明确触觉传感器天然异构一个传感器上训练出来的模型不能直接用到另一个传感器上这限制了触觉数据的大规模复用。它提出了一个Heterogeneous Paired Tactile Dataset, HPT包含 1.6M 个同步 paired tactile frames覆盖四种传感器GelSight Mini9DTactXelaTAC-02其中 GelSight Mini 和 9DTact 更偏 optical tactile sensorXela 和 TAC-02 更偏 array-based / taxel sensor。HTT 数据采集与数据统计HTT 的模型设计可以拆成三层第一层是sensor-specific encoders。不同传感器的原始数据结构差异很大图像类传感器和 taxel array 不能用同一个输入头硬吃所以先用各自的 encoder 处理。第二层是shared transformer trunk。不同传感器经过各自 encoder 后进入共享 transformer trunk在这里形成共同表征。第三层是双重自监督目标。HTT 一边做 per-modality masked reconstruction让模型学会重建每个传感器自己的信号另一边做 cross-modal alignment用 paired sensors 的同步观测把不同传感器拉到共同 latent space。这个设计的直觉很好理解重建任务保证每个传感器的细节别丢跨模态对齐保证不同传感器能说同一种语言。HTT 的实验覆盖 object classification、force estimation、slip detection以及真实机器人操作。几个关键数字比较值得记object classification overall accuracy 达到 66.20%。force estimation overall 3D MAE 为0.636。slip detection overall macro-F1 为56.35。在真实机器人上HTT embeddings 让 Toy Screw 成功率达到 95%Grasp Tofu 达到 55%明显高于 qpos-only 和 wrench baseline。HTT 真实机器人实验HTT 的价值在于它不是只在“两个相似 optical tactile sensors”之间做迁移而是把 optical sensor 和 array sensor 放进同一个 paired pretraining 框架里。我的理解是HTT 解决的是触觉预训练的数据汇聚问题。如果未来触觉基础模型要吃掉不同实验室、不同硬件、不同采集方式的数据那么每个传感器各训各的是不够的。HTT 这类方法想做的是保留传感器个性同时在中间层形成可共享的 tactile backbone。论文二TactX把不同物理原理的触觉传感器压到同一个 16 维 latent论文TactX: Learning Shared Tactile Representations Across Diverse Sensors作者Junsung Park, Sachin Bhadang, Carmelo Sferrazza, Sha Yi, Xiaolong Wang作者单位UC San DiegoSeoul National UniversityAmazon FARarXiv2606.312362026 年 6 月 30 日TactX 的问题更激进一些。HTT 主要覆盖 optical array-based tactile sensorsTactX 则直接把三种物理原理放在一起Daimonvision-based tactile sensor。eFleshmagnetic tactile sensor。FlexiTacresistive tactile sensor。TactX 零样本跨传感器策略迁移概览TactX 不是把所有传感器转换成统一图像也不是把磁信号、压力图、视觉触觉图像硬拼在一起。它采用的是更干净的路线每个传感器保留自己的 encoder 和 decoder但所有传感器都映射到同一个 16 维 shared latent space。方法上TactX 用 paired contact data 做监督。两个不同传感器装在同一个 gripper 的两侧接触同一个物体时虽然读数形式不同但它们对应的是同一个物理接触事件。TactX shared latent 方法框架训练目标主要有三类第一contrastive alignment。同一个接触事件下不同传感器的 latent 应该靠近不同接触事件应该拉开。论文里使用的是 InfoNCE / NT-Xent 这类对比学习目标。第二self-reconstruction。某个传感器自己的 latent 要能重建自己的原始信号避免 encoder 只学到过度压缩的空洞表征。第三cross-reconstruction。一个传感器的 latent 要能通过另一个传感器的 decoder 重建对应信号。这一点很关键因为它迫使 latent 保留“跨传感器共享的接触信息”而不是只保留某个传感器自己的纹理。TactX 还专门检查了一个很重要的问题如果 latent 完全去掉了传感器身份它还保不保留接触语义这其实是 shared representation 里最微妙的平衡。太 sensor-specific就不能迁移太 sensor-invariant又可能把任务真正需要的接触细节也抹掉。TactX 的传感器不变性与语义保留论文用 sensor prediction accuracy 来衡量 latent 里是否还保留传感器身份。越接近 33.3% 的随机水平说明越难从 latent 判断传感器类型也就是 sensor invariance 越强。同时它又用 object classification 和 reconstruction 来判断 latent 是否还保留了接触内容。论文报告 TactX 在 object classification 中达到60.8%的 self-sensor accuracy并且 cross-reconstruction 能保留主要接触结构。TactX 从 shared latent 做自重建和交叉重建但真正把 shared latent 和机器人策略连接起来的是策略迁移实验。它在四个 contact-rich manipulation tasks 上评估plug insertionboard wipingpick-and-placeobject reorientationTactX 下游操作任务结果是通过 shared latent 做 zero-shot cross-sensor policy transfer平均成功率从 vision-only 的27.5%提升到 45.9%。这句话很重要因为它说明 shared tactile latent 不只是表征空间里好看而是真的能让策略换传感器部署。我的理解是TactX 解决的是触觉策略的硬件解耦问题。如果一个策略训练时用的是 Daimon部署时换成 eFlesh 或 FlexiTac传统做法往往要重新采数据、重新训练。TactX 想让策略看到的是一个统一 tactile latent而不是某个传感器的原始读数。这样传感器换了策略接口可以不变。HTT 和 TactX 的关键区别这两篇论文放在一起看很像是在回答同一个问题的两个版本。维度HTTTactX更像什么tactile backbonetactile adapter / shared latent interface数据规模1.6M paired frames规模较小但覆盖不同物理原理传感器类型optical array-basedvision-based magnetic resistive结构sensor-specific encoder shared transformer trunkmodality-specific encoder/decoder 16-D latent训练信号masked reconstruction cross-modal alignmentInfoNCE self/cross reconstruction KL主要验证perception real robot manipulationzero-shot cross-sensor policy transfer核心价值让不同 tactile data 能预训练成通用 backbone让策略和具体触觉硬件解耦如果要用更直白的话说HTT 更关心“不同触觉数据能不能一起训练一个大模型”。TactX 更关心“换一个触觉传感器机器人策略还能不能继续用”。它们和 FTP-1 的区别三种 shared tactile token space 路线如果你前面看过 FTP-1可能会觉得这几篇都在讲“跨触觉传感器”那它们到底差在哪里你这个直觉是对的FTP-1 也做了统一触觉 token / latent space。它提出的 MTTS也就是 Morphology-Aware Tactile Token Space本质上也是在把不同触觉传感器映射到一个统一空间里。HTT 和 TactX 更聚焦 shared tactile representation 本身怎么学。FTP-1 则把 shared tactile token space 和 foundation policy 训练绑在了一起。也就是说三者都在处理触觉异构性但目标层级不同维度HTTTactXFTP-1核心问题光学触觉和阵列触觉能否训练共享 backbone不同物理原理的触觉传感器能否映射到同一个 latent多传感器触觉 token 能否支撑通用操作策略共享空间形式shared transformer trunk / tactile representationshared 16-D tactile latentMTTS: morphology-aware tactile token space模型位置tactile encoder / backbonetactile latent adaptertactile token space tactile expert action policy主要产物Heterogeneous Tactile Transformersensor-agnostic shared latentGeneralist Foundation Tactile Policy触觉的角色被预训练成可迁移表征被压缩成策略可复用的统一接口被映射成功能区域 token再由 tactile expert 建模下游目标感知任务 操作任务增益换传感器后的 zero-shot policy transfer直接执行跨任务、跨传感器的接触丰富操作用 LLM 类比会更清楚HTT 更像是在训练触觉 backbone。它关心的是不同 optical / array tactile sensors 的数据能不能通过 paired pretraining 形成一个通用触觉表征。TactX 更像是在训练触觉 adapter / embedding interface。它关心的是Daimon、eFlesh、FlexiTac 这些物理原理不同的传感器能不能映射到同一个低维 latent让策略换传感器还能用。FTP-1 更像是在训练“触觉 token space 策略专家”的完整系统。它也做统一触觉 token只是这个 token space 不是独立停在 representation 层而是直接服务于 generalist tactile policy。FTP-1 先用 sensor-specific encoders 把不同触觉输入投影到 MTTS 功能区域 token再用独立 tactile expert 学习可迁移接触表示最后让 action expert 调用这些触觉信息生成动作。所以 FTP-1 的重点比 HTT / TactX 更靠后一步它不是只问“触觉空间能不能统一”而是问“统一后的触觉 token 能不能预训练出可迁移的操作策略”。所以这篇 HTT TactX 其实适合放在 FTP-1 前面讲先讲触觉传感器怎么统一再讲统一后的触觉怎么进入 foundation policy。Shared tactile latent space 到底应该学什么这两篇共同给了一个答案shared tactile latent space 不能只是把不同传感器信号压成同一个向量。它至少要同时满足三个条件。1. 它要对传感器身份不敏感如果 latent 一眼就能看出来自 Daimon、eFlesh 还是 FlexiTac那它仍然高度绑定硬件。这类表征也许在单传感器任务上表现很好但换传感器就容易崩。2. 它要保留接触语义如果为了去掉传感器身份把接触形状、压力分布、滑移、纹理、力变化也一起抹掉那这个 latent 对机器人没有用。触觉表征真正有价值的地方恰恰是它能告诉模型现在是轻触、按压、滑动、卡住、对准还是即将失稳。3. 它要能服务下游策略表征空间 t-SNE 好看不够。最后还是要问它能不能让策略更稳定能不能跨传感器迁移能不能少采新数据HTT 用 real-world Toy Screw / Grasp Tofu 验证了 embedding 对操作有帮助TactX 则直接用 zero-shot cross-sensor policy transfer 证明 shared latent 能改善策略迁移。这也是两篇论文最值得放在一起讲的原因一篇偏 backbone一篇偏 policy interface刚好把“共享触觉表征”的上游和下游都覆盖了。但这条路线还没完全解决shared tactile latent space 很诱人但也有明显限制。第一paired contact data 仍然是成本。HTT 和 TactX 都很依赖 paired data也就是不同传感器要在相同或可比接触条件下同步观测。真实世界里两个触觉传感器很难保证接触位置、姿态、受力完全一致。第二跨传感器迁移不一定对称。TactX 里就提到从低维磁信号 eFlesh 迁移到更高空间结构的 FlexiTac 比较困难。这说明 shared latent 不是魔法如果源传感器本身缺少某些信息策略可能学不到目标传感器能提供的细节。第三静态接触和动态操作还有距离。很多 paired contact 数据来自 quasi-static grasp 或较受控的交互。真实机器人操作里有持续滑动、剪切、冲击、接触转移这些动态触觉信号更难对齐。第四低维 latent 可能牺牲细节。TactX 使用 16 维 latent优点是接口简洁适合策略使用缺点是可能压掉某些高频细节。未来 tactile VLA 或 tactile world model 可能需要更丰富的 token-level tactile representation。对触觉基础模型的启发如果把这两篇论文放到更大的机器人基础模型脉络里我觉得它们给出三个启发。第一触觉不应该被理解为“多一路输入”。它首先是一个硬件异构非常严重的模态。没有 shared representation不同实验室采到的数据很难汇入同一个模型。第二触觉模型需要“传感器适配层”。视觉模型可以默认输入是图像语言模型可以默认输入是 token但触觉模型不能默认传感器一致。未来可能需要像 tokenizer 一样的 tactile adapter把不同触觉硬件映射到统一空间。第三触觉进入 VLA 之前最好先解决 latent space。如果每个触觉传感器都要为 VLA 单独设计输入头那么模型很难规模化。HTT 和 TactX 的意义就在于它们试图把触觉先变成一种更标准的中间表示。一个判断这两篇 6 月底新论文说明触觉领域正在从“单个传感器做任务”走向“跨传感器共享表征”。HTT 给出的路径是用大规模 paired heterogeneous tactile data 训练一个通用 tactile backbone。TactX 给出的路径是用 paired contact data 把不同物理原理的传感器压进同一个 shared latent让策略可以 zero-shot 换传感器。所以今天这篇的核心问题可以这样回答不同触觉传感器可以进入同一个 shared tactile latent space但这个 latent 必须同时做到三件事去掉传感器身份、保留接触语义、真正服务下游操作。这件事一旦做成触觉才有可能像视觉和语言一样成为机器人基础模型里可以规模化复用的模态。参考论文Heterogeneous Tactile Transformerhttps://arxiv.org/abs/2606.29948TactX: Learning Shared Tactile Representations Across Diverse Sensorshttps://arxiv.org/abs/2606.31236FTP-1: A Generalist Foundation Tactile Policy Across Tactile Sensors for Contact-Rich Manipulationhttps://arxiv.org/abs/2606.13102
触觉新论文:不同触觉传感器数据能不能进入同一个 shared tactile latent space?
发布时间:2026/7/5 4:21:01
昨天我们讲的是触觉数据集和评测TacVerse、RCT、RoboTacDex 都在追问一个问题触觉泛化到底该怎么测今天往前走一步如果触觉模型真的要泛化光有评测还不够还要回答一个更基础的问题不同触觉传感器数据能不能进入同一个 shared tactile latent space这也是 2026 年 6 月底连续两篇新论文共同指向的问题。一篇是 6 月 29 日的Heterogeneous Tactile Transformer, HTT来自 NUS、CMU 等团队另一篇是 6 月 30 日的TactX: Learning Shared Tactile Representations Across Diverse Sensors来自 UC San Diego、Seoul National University、Amazon FAR 等团队。这两篇都不满足于“给每个传感器单独训练一个 encoder”。它们真正想做的是让 GelSight / 9DTact / Xela / TAC-02 / Daimon / eFlesh / FlexiTac 这些输出形式完全不同的触觉传感器最后能映射到某个可复用的共同表征空间里。如果用一句话概括今天的主题触觉基础模型的第一道门槛不是把触觉接进 VLA而是先让不同触觉传感器说同一种语言。为什么触觉比视觉更难做“通用编码器”视觉模型能走向 ImageNet、CLIP、DINO、SAM一个重要前提是相机之间虽然有差异但输出形式大体一致都是二维图像。触觉不是这样。不同触觉传感器之间差异不只是分辨率、噪声、标定方式而是物理测量原理就不同vision-based tactile sensor 看的是弹性体表面的光学形变。magnetic tactile sensor 看的是磁场变化。resistive tactile sensor 看的是压力导致的电阻变化。taxel array sensor 看的是分布式触觉单元的时序信号。也就是说触觉传感器之间不是“不同相机”更像是“相机、麦克风、压力板、磁力计”之间要互相对齐。这就带来一个很现实的问题如果机器人 A 用 GelSight 训练了一个策略机器人 B 换成 Xela 或 FlexiTac还能不能复用这个策略如果实验室 A 采了很多 optical tactile data实验室 B 采了很多 array tactile data这些数据能不能汇入一个共同触觉模型HTT 和 TactX 就是在回答这个问题。两篇论文先放在一张表里论文发布时间核心路线传感器范围主要目标HTT2026-06-29sensor-specific encoders shared transformer trunkoptical array-based训练一个异构触觉 backboneTactX2026-06-30modality-specific encoder/decoder shared 16-D latentvision-based magnetic resistive让策略跨传感器 zero-shot transfer二者很像但侧重点不同HTT 更像“触觉版 backbone”路线它用大规模 paired tactile data 预训练目标是得到一个可以服务感知任务和操作任务的共享触觉表征。TactX 更像“触觉传感器适配层”路线它把不同物理原理的传感器压进一个低维 latent让同一个 tactile-conditioned policy 可以换传感器部署。论文一HTT想做异构触觉传感器的 backbone论文Heterogeneous Tactile Transformer作者Jianxin Bi, Qiang Wang, Jayaram Reddy, Kelvin Lin, Soibkhon Khajikhanov, Ruihan Gao, Harold Soh作者单位National University of SingaporeCarnegie Mellon UniversitySmart Systems Institute, NUSarXiv2606.299482026 年 6 月 29 日HTT 框架图HTT 的出发点很明确触觉传感器天然异构一个传感器上训练出来的模型不能直接用到另一个传感器上这限制了触觉数据的大规模复用。它提出了一个Heterogeneous Paired Tactile Dataset, HPT包含 1.6M 个同步 paired tactile frames覆盖四种传感器GelSight Mini9DTactXelaTAC-02其中 GelSight Mini 和 9DTact 更偏 optical tactile sensorXela 和 TAC-02 更偏 array-based / taxel sensor。HTT 数据采集与数据统计HTT 的模型设计可以拆成三层第一层是sensor-specific encoders。不同传感器的原始数据结构差异很大图像类传感器和 taxel array 不能用同一个输入头硬吃所以先用各自的 encoder 处理。第二层是shared transformer trunk。不同传感器经过各自 encoder 后进入共享 transformer trunk在这里形成共同表征。第三层是双重自监督目标。HTT 一边做 per-modality masked reconstruction让模型学会重建每个传感器自己的信号另一边做 cross-modal alignment用 paired sensors 的同步观测把不同传感器拉到共同 latent space。这个设计的直觉很好理解重建任务保证每个传感器的细节别丢跨模态对齐保证不同传感器能说同一种语言。HTT 的实验覆盖 object classification、force estimation、slip detection以及真实机器人操作。几个关键数字比较值得记object classification overall accuracy 达到 66.20%。force estimation overall 3D MAE 为0.636。slip detection overall macro-F1 为56.35。在真实机器人上HTT embeddings 让 Toy Screw 成功率达到 95%Grasp Tofu 达到 55%明显高于 qpos-only 和 wrench baseline。HTT 真实机器人实验HTT 的价值在于它不是只在“两个相似 optical tactile sensors”之间做迁移而是把 optical sensor 和 array sensor 放进同一个 paired pretraining 框架里。我的理解是HTT 解决的是触觉预训练的数据汇聚问题。如果未来触觉基础模型要吃掉不同实验室、不同硬件、不同采集方式的数据那么每个传感器各训各的是不够的。HTT 这类方法想做的是保留传感器个性同时在中间层形成可共享的 tactile backbone。论文二TactX把不同物理原理的触觉传感器压到同一个 16 维 latent论文TactX: Learning Shared Tactile Representations Across Diverse Sensors作者Junsung Park, Sachin Bhadang, Carmelo Sferrazza, Sha Yi, Xiaolong Wang作者单位UC San DiegoSeoul National UniversityAmazon FARarXiv2606.312362026 年 6 月 30 日TactX 的问题更激进一些。HTT 主要覆盖 optical array-based tactile sensorsTactX 则直接把三种物理原理放在一起Daimonvision-based tactile sensor。eFleshmagnetic tactile sensor。FlexiTacresistive tactile sensor。TactX 零样本跨传感器策略迁移概览TactX 不是把所有传感器转换成统一图像也不是把磁信号、压力图、视觉触觉图像硬拼在一起。它采用的是更干净的路线每个传感器保留自己的 encoder 和 decoder但所有传感器都映射到同一个 16 维 shared latent space。方法上TactX 用 paired contact data 做监督。两个不同传感器装在同一个 gripper 的两侧接触同一个物体时虽然读数形式不同但它们对应的是同一个物理接触事件。TactX shared latent 方法框架训练目标主要有三类第一contrastive alignment。同一个接触事件下不同传感器的 latent 应该靠近不同接触事件应该拉开。论文里使用的是 InfoNCE / NT-Xent 这类对比学习目标。第二self-reconstruction。某个传感器自己的 latent 要能重建自己的原始信号避免 encoder 只学到过度压缩的空洞表征。第三cross-reconstruction。一个传感器的 latent 要能通过另一个传感器的 decoder 重建对应信号。这一点很关键因为它迫使 latent 保留“跨传感器共享的接触信息”而不是只保留某个传感器自己的纹理。TactX 还专门检查了一个很重要的问题如果 latent 完全去掉了传感器身份它还保不保留接触语义这其实是 shared representation 里最微妙的平衡。太 sensor-specific就不能迁移太 sensor-invariant又可能把任务真正需要的接触细节也抹掉。TactX 的传感器不变性与语义保留论文用 sensor prediction accuracy 来衡量 latent 里是否还保留传感器身份。越接近 33.3% 的随机水平说明越难从 latent 判断传感器类型也就是 sensor invariance 越强。同时它又用 object classification 和 reconstruction 来判断 latent 是否还保留了接触内容。论文报告 TactX 在 object classification 中达到60.8%的 self-sensor accuracy并且 cross-reconstruction 能保留主要接触结构。TactX 从 shared latent 做自重建和交叉重建但真正把 shared latent 和机器人策略连接起来的是策略迁移实验。它在四个 contact-rich manipulation tasks 上评估plug insertionboard wipingpick-and-placeobject reorientationTactX 下游操作任务结果是通过 shared latent 做 zero-shot cross-sensor policy transfer平均成功率从 vision-only 的27.5%提升到 45.9%。这句话很重要因为它说明 shared tactile latent 不只是表征空间里好看而是真的能让策略换传感器部署。我的理解是TactX 解决的是触觉策略的硬件解耦问题。如果一个策略训练时用的是 Daimon部署时换成 eFlesh 或 FlexiTac传统做法往往要重新采数据、重新训练。TactX 想让策略看到的是一个统一 tactile latent而不是某个传感器的原始读数。这样传感器换了策略接口可以不变。HTT 和 TactX 的关键区别这两篇论文放在一起看很像是在回答同一个问题的两个版本。维度HTTTactX更像什么tactile backbonetactile adapter / shared latent interface数据规模1.6M paired frames规模较小但覆盖不同物理原理传感器类型optical array-basedvision-based magnetic resistive结构sensor-specific encoder shared transformer trunkmodality-specific encoder/decoder 16-D latent训练信号masked reconstruction cross-modal alignmentInfoNCE self/cross reconstruction KL主要验证perception real robot manipulationzero-shot cross-sensor policy transfer核心价值让不同 tactile data 能预训练成通用 backbone让策略和具体触觉硬件解耦如果要用更直白的话说HTT 更关心“不同触觉数据能不能一起训练一个大模型”。TactX 更关心“换一个触觉传感器机器人策略还能不能继续用”。它们和 FTP-1 的区别三种 shared tactile token space 路线如果你前面看过 FTP-1可能会觉得这几篇都在讲“跨触觉传感器”那它们到底差在哪里你这个直觉是对的FTP-1 也做了统一触觉 token / latent space。它提出的 MTTS也就是 Morphology-Aware Tactile Token Space本质上也是在把不同触觉传感器映射到一个统一空间里。HTT 和 TactX 更聚焦 shared tactile representation 本身怎么学。FTP-1 则把 shared tactile token space 和 foundation policy 训练绑在了一起。也就是说三者都在处理触觉异构性但目标层级不同维度HTTTactXFTP-1核心问题光学触觉和阵列触觉能否训练共享 backbone不同物理原理的触觉传感器能否映射到同一个 latent多传感器触觉 token 能否支撑通用操作策略共享空间形式shared transformer trunk / tactile representationshared 16-D tactile latentMTTS: morphology-aware tactile token space模型位置tactile encoder / backbonetactile latent adaptertactile token space tactile expert action policy主要产物Heterogeneous Tactile Transformersensor-agnostic shared latentGeneralist Foundation Tactile Policy触觉的角色被预训练成可迁移表征被压缩成策略可复用的统一接口被映射成功能区域 token再由 tactile expert 建模下游目标感知任务 操作任务增益换传感器后的 zero-shot policy transfer直接执行跨任务、跨传感器的接触丰富操作用 LLM 类比会更清楚HTT 更像是在训练触觉 backbone。它关心的是不同 optical / array tactile sensors 的数据能不能通过 paired pretraining 形成一个通用触觉表征。TactX 更像是在训练触觉 adapter / embedding interface。它关心的是Daimon、eFlesh、FlexiTac 这些物理原理不同的传感器能不能映射到同一个低维 latent让策略换传感器还能用。FTP-1 更像是在训练“触觉 token space 策略专家”的完整系统。它也做统一触觉 token只是这个 token space 不是独立停在 representation 层而是直接服务于 generalist tactile policy。FTP-1 先用 sensor-specific encoders 把不同触觉输入投影到 MTTS 功能区域 token再用独立 tactile expert 学习可迁移接触表示最后让 action expert 调用这些触觉信息生成动作。所以 FTP-1 的重点比 HTT / TactX 更靠后一步它不是只问“触觉空间能不能统一”而是问“统一后的触觉 token 能不能预训练出可迁移的操作策略”。所以这篇 HTT TactX 其实适合放在 FTP-1 前面讲先讲触觉传感器怎么统一再讲统一后的触觉怎么进入 foundation policy。Shared tactile latent space 到底应该学什么这两篇共同给了一个答案shared tactile latent space 不能只是把不同传感器信号压成同一个向量。它至少要同时满足三个条件。1. 它要对传感器身份不敏感如果 latent 一眼就能看出来自 Daimon、eFlesh 还是 FlexiTac那它仍然高度绑定硬件。这类表征也许在单传感器任务上表现很好但换传感器就容易崩。2. 它要保留接触语义如果为了去掉传感器身份把接触形状、压力分布、滑移、纹理、力变化也一起抹掉那这个 latent 对机器人没有用。触觉表征真正有价值的地方恰恰是它能告诉模型现在是轻触、按压、滑动、卡住、对准还是即将失稳。3. 它要能服务下游策略表征空间 t-SNE 好看不够。最后还是要问它能不能让策略更稳定能不能跨传感器迁移能不能少采新数据HTT 用 real-world Toy Screw / Grasp Tofu 验证了 embedding 对操作有帮助TactX 则直接用 zero-shot cross-sensor policy transfer 证明 shared latent 能改善策略迁移。这也是两篇论文最值得放在一起讲的原因一篇偏 backbone一篇偏 policy interface刚好把“共享触觉表征”的上游和下游都覆盖了。但这条路线还没完全解决shared tactile latent space 很诱人但也有明显限制。第一paired contact data 仍然是成本。HTT 和 TactX 都很依赖 paired data也就是不同传感器要在相同或可比接触条件下同步观测。真实世界里两个触觉传感器很难保证接触位置、姿态、受力完全一致。第二跨传感器迁移不一定对称。TactX 里就提到从低维磁信号 eFlesh 迁移到更高空间结构的 FlexiTac 比较困难。这说明 shared latent 不是魔法如果源传感器本身缺少某些信息策略可能学不到目标传感器能提供的细节。第三静态接触和动态操作还有距离。很多 paired contact 数据来自 quasi-static grasp 或较受控的交互。真实机器人操作里有持续滑动、剪切、冲击、接触转移这些动态触觉信号更难对齐。第四低维 latent 可能牺牲细节。TactX 使用 16 维 latent优点是接口简洁适合策略使用缺点是可能压掉某些高频细节。未来 tactile VLA 或 tactile world model 可能需要更丰富的 token-level tactile representation。对触觉基础模型的启发如果把这两篇论文放到更大的机器人基础模型脉络里我觉得它们给出三个启发。第一触觉不应该被理解为“多一路输入”。它首先是一个硬件异构非常严重的模态。没有 shared representation不同实验室采到的数据很难汇入同一个模型。第二触觉模型需要“传感器适配层”。视觉模型可以默认输入是图像语言模型可以默认输入是 token但触觉模型不能默认传感器一致。未来可能需要像 tokenizer 一样的 tactile adapter把不同触觉硬件映射到统一空间。第三触觉进入 VLA 之前最好先解决 latent space。如果每个触觉传感器都要为 VLA 单独设计输入头那么模型很难规模化。HTT 和 TactX 的意义就在于它们试图把触觉先变成一种更标准的中间表示。一个判断这两篇 6 月底新论文说明触觉领域正在从“单个传感器做任务”走向“跨传感器共享表征”。HTT 给出的路径是用大规模 paired heterogeneous tactile data 训练一个通用 tactile backbone。TactX 给出的路径是用 paired contact data 把不同物理原理的传感器压进同一个 shared latent让策略可以 zero-shot 换传感器。所以今天这篇的核心问题可以这样回答不同触觉传感器可以进入同一个 shared tactile latent space但这个 latent 必须同时做到三件事去掉传感器身份、保留接触语义、真正服务下游操作。这件事一旦做成触觉才有可能像视觉和语言一样成为机器人基础模型里可以规模化复用的模态。参考论文Heterogeneous Tactile Transformerhttps://arxiv.org/abs/2606.29948TactX: Learning Shared Tactile Representations Across Diverse Sensorshttps://arxiv.org/abs/2606.31236FTP-1: A Generalist Foundation Tactile Policy Across Tactile Sensors for Contact-Rich Manipulationhttps://arxiv.org/abs/2606.13102