[AAAI 2020]Adaptive Cross-modal Embeddings for Image-Text Alignment阅读

文章地址:link

文章介绍了一种新的训练图像-文本对齐模型的方法,即ADAPT。Image-text对齐方法通常用于跨模式检索,即用于检索给定查询文本的图像或成功标记图像的标题。ADAPT是基于模式b的全局信息,提高模式a中的实例嵌入式表示的效果的一种方法。文章提供的代码地址:
https://github.com/jwehrmann /retrieval.pytorch。

简介

在深度学习工作中,对于多通道模型的研究是一个十分重要的工作,尽管多通道模型大致是一个广义的概念,它包括任何模型训练超过一个单一的形态(如图片、视频、文本、音频),在这项工作中,本文针对的就是Images-Text对齐问题,也被称为多通道检索、跨通道检索和双向对齐问题。文中主要针对:

  • 使用一段文本来对图像进行检索
  • 根据图像,找到一段对其最合适的描述

以往的方法

在模型交叉级别上,学习image-text对齐模型主要有三种方法:

  • 训练所谓的视觉语义嵌入空间
  • 基于注意力的策略,即某一模型的高级特征会影响其他模型的编码,例如,使用图像特征来计算文本表示
  • 处理完全模型交叉表示的方法,将不同的的两模型结合在同一个神经网络中,网络本身学习一个相似函数。

随着不同通道间特征交叉的增加,神经网络的计算量会不断的增大,而完全独立的向量计算方法虽然快但是模型很难在图像和文本之间学习相似性和差异性。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值