图文检索(15):TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval

TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval


发布时间(2024 IEEE)


标题:TSFE:图像文本检索的 Transformer 和特征增强方法研究

摘要

传统:单流
本文:双流
特征增强方法(TSFE,Transformer and Feature Enhancement Method)
1)特征提取层
2)特征增强注意力(FEA),增强显著特征
3)引入通道注意力,过滤图像的冗余信息

近年来,跨模态检索在信息检索、多媒体处理等领域得到广泛应用,其关键是通过一个模态查询找到另一个模态中的相关数据。在跨模态图形检索中,通常使用相互注意机制来交互图像和文本特征。然而,这种交互机制导致难以提取单独的视觉和文本特征进行后续的索引步骤,尤其是在大规模检索任务中。此外,在图像表示中,图像特征中的非语义信息会导致图像和文本特征对齐不准确。因此本文提出了一种用于图像文本检索的Transformer和特征增强方法(TSFE)。该方法通过在图像和文本两个独立的分支上使用分层的Transformer编码结构来校对和定位最终的输出特征,从而更好地融合底层特征和更高级别特征。设计特征增强注意力 (FEA) 模块以推断图像中的非语义信息并增强显著区域的特征。在 Transformer 编码器自注意力之上引入通道空间注意力和最大池化,以从通道和空间维度过滤冗余和干扰信息。本文在 Flickr30k 数据集和 MS-COCO 数据集上的实验表明,跨模态检索的性能有所提高,从而验证了所提方法的有效性和精细度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值