UniTouch:开创性的多模态触觉模型引领零样本学习新时代

 人工智能咨询培训老师叶梓 转载标明出处

由于触觉数据收集过程昂贵且传感器输出标准化程度不高,多模态学习中触觉的融合一直是一个挑战。最近,一篇由耶鲁大学和密歇根大学的研究团队提出的论文《Binding Touch to Everything: Learning Unified Multimodal Tactile Representations》为这一难题提供了新的解决方案。研究团队提出了一个名为UniTouch的统一触觉模型,该模型能够将基于视觉的触觉传感器与多种模态连接起来。UniTouch通过将其嵌入与已经与其他模态相关联的预训练图像嵌入对齐来实现这一点。论文还提出了可学习的传感器特定标记,允许模型同时从一组异构的触觉传感器中学习。

如何将触觉与图像、文本和音频等多种模态相结合,用于解决触觉图像理解、图像合成等任务

方法

作者提出了一种新颖的方法来学习不同触觉传感器的统一触觉表征,这种表征能够捕捉触觉与其他模态(例如视觉、文本和音频)之间的关系。他们首先介绍了一种对比性视觉-触觉预训练方法,该方法能够实现触觉与其他模态之间的内在联系。

如图3所示,他们通过对比学习将触觉嵌入与大规模视觉语言数据预训练出的图像嵌入对齐。在这种方法中,图像嵌入已经与语言和音频等模态对齐。作者定义了视觉图像域 和触觉图像域​。给定一批视觉和触觉图像对,其中 ,他们通过最大化触觉嵌入和预训练的视觉嵌入 之间的余弦相似度来对齐它们。使用InfoNCE损失来优化这一目标,损失函数 如下所示: 其中 τ 是一个温度超参数,C 是特征维度。同样地,也可以从图像 到触觉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值