(四十六):VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

  • 出处:CoRR abs/2104.11178 (2021)
  • 代码:https://paperswithcode.com/paper/vatt-transformers-for-multimodal-self
  • 题目:VATT:用于从原始视频、音频和文本中进行多模态自我监督学习的变压器。
  • 主要内容:提出了一种基于Transformer架构的自监督多模态表示学习框架。基于多模态视频输入的纯注意力模型,提出了一种简单而有效的技术DropToken,以解决基于注意的模型输入长度的二次训练复杂度,使其更易于用于图像和原始音频处理。

Abstract

我们提出了一个使用无卷积Transformer架构从未标记数据学习多模态表示的框架。具体来说,我们的视频-音频-文本转换器(VATT)将原始信号作为输入,并提取足够丰富的多模态表示,以使各种下游任务受益。我们使用多模态对比损耗从头到尾训练VATT,并评估其在视频动作识别、audio事件分类、图像分类和文本-视频检索方面的性能。此外,我们通过在三个模式之间共享权重来研究一个模态不可知的单骨干变压器。

我们表明,无卷积VATT在下游任务中优于最先进的基于convnet的架构。特别是,VATT的vision Transformer在Kinetics-400上获得了82.1%的准确率,在Kinetics-6

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值