[AAAI 2020]Adaptive Cross-modal Embeddings for Image-Text Alignment阅读

最新推荐文章于 2024-10-21 16:39:47 发布

原创

最新推荐文章于 2024-10-21 16:39:47 发布 · 1.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#神经网络 #深度学习 #机器学习

文章地址：link

文章介绍了一种新的训练图像-文本对齐模型的方法，即ADAPT。Image-text对齐方法通常用于跨模式检索，即用于检索给定查询文本的图像或成功标记图像的标题。ADAPT是基于模式b的全局信息，提高模式a中的实例嵌入式表示的效果的一种方法。文章提供的代码地址：
https://github.com/jwehrmann /retrieval.pytorch。

简介

在深度学习工作中，对于多通道模型的研究是一个十分重要的工作，尽管多通道模型大致是一个广义的概念,它包括任何模型训练超过一个单一的形态(如图片、视频、文本、音频),在这项工作中,本文针对的就是Images-Text对齐问题,也被称为多通道检索、跨通道检索和双向对齐问题。文中主要针对：

使用一段文本来对图像进行检索
根据图像，找到一段对其最合适的描述

以往的方法

在模型交叉级别上，学习image-text对齐模型主要有三种方法:

训练所谓的视觉语义嵌入空间
基于注意力的策略，即某一模型的高级特征会影响其他模型的编码，例如，使用图像特征来计算文本表示
处理完全模型交叉表示的方法，将不同的的两模型结合在同一个神经网络中，网络本身学习一个相似函数。

随着不同通道间特征交叉的增加，神经网络的计算量会不断的增大，而完全独立的向量计算方法虽然快但是模型很难在图像和文本之间学习相似性和差异性。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。