image-text matching(五)Adaptive Cross-modal Embeddings for Image-Text Alignment

ADAPT是一个图文匹配模型,通过利用不同模态的实例调整中间表示,增强重要信息并聚焦关键细节。该模型采用对称流程,如T2I,先进行模态增强,再通过self-attention得到增强视觉特征,进而计算与文本的相似度。实验结果显示,ADAPT在图像-文本对齐中表现出有效性,并且其引入的中央凹模块提高了效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

本文提出的图文匹配模型名为ADAPT。ADAPT被设计用来:利用B模态的实例来调整A模态的实例的中间表示这种自适应的调整能够过滤和增强模态间的重要信息,增强模型对重要的图/文细节的关注,从而引导向量表示的生成。(个人理解,本篇文章的创新点,设计了一种自适应的GA方式)

方法

在这里插入图片描述
整个流程是对称的,这里以T2I为例,最终得到的是带有文本注意的视觉特征表示。执行步骤,可以简单理解为先做一个GA,再做一个SA。在处理视觉模态时,文本模态的特征表示 c c c投影得到两个指示向量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值