人工智能咨询培训老师叶梓 转载标明出处
由于触觉数据收集过程昂贵且传感器输出标准化程度不高,多模态学习中触觉的融合一直是一个挑战。最近,一篇由耶鲁大学和密歇根大学的研究团队提出的论文《Binding Touch to Everything: Learning Unified Multimodal Tactile Representations》为这一难题提供了新的解决方案。研究团队提出了一个名为UniTouch的统一触觉模型,该模型能够将基于视觉的触觉传感器与多种模态连接起来。UniTouch通过将其嵌入与已经与其他模态相关联的预训练图像嵌入对齐来实现这一点。论文还提出了可学习的传感器特定标记,允许模型同时从一组异构的触觉传感器中学习。

方法
作者提出了一种新颖的方法来学习不同触觉传感器的统一触觉表征,这种表征能够捕捉触觉与其他模态(例如视觉、文本和音频)之间的关系。他们首先介绍了一种对比性视觉-触觉预训练方法,该方法能够实现触觉与其他模态之间的内在联系。
如图3所示,他们通过对比学习将触觉嵌入与大规模视觉语言数据预训练出的图像嵌入对齐。在这种方法中,图像嵌入已经与语言和音频等模态对齐。作者定义了视觉图像域 和触觉图像域
。给定一批视觉和触觉图像对
,其中
和
,他们通过最大化触觉嵌入
和预训练的视觉嵌入
之间的余弦相似度来对齐它们。使用InfoNCE损失来优化这一目标,损失函数
如下所示:
其中 τ 是一个温度超参数,C 是特征维度。同样地,也可以从图像
到触觉