TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval
发布时间(2024 IEEE)
标题:TSFE:图像文本检索的 Transformer 和特征增强方法研究
摘要
传统:单流
本文:双流
特征增强方法(TSFE,Transformer and Feature Enhancement Method)
1)特征提取层
2)特征增强注意力(FEA),增强显著特征
3)引入通道注意力,过滤图像的冗余信息
近年来,跨模态检索在信息检索、多媒体处理等领域得到广泛应用,其关键是通过一个模态查询找到另一个模态中的相关数据。在跨模态图形检索中,通常使用相互注意机制来交互图像和文本特征。然而,这种交互机制导致难以提取单独的视觉和文本特征进行后续的索引步骤,尤其是在大规模检索任务中。此外,在图像表示中,图像特征中的非语义信息会导致图像和文本特征对齐不准确。因此本文提出了一种用于图像文本检索的Transformer和特征增强方法(TSFE)。该方法通过在图像和文本两个独立的分支上使用分层的Transformer编码结构来校对和定位最终的输出特征,从而更好地融合底层特征和更高级别特征。设计特征增强注意力 (FEA) 模块以推断图像中的非语义信息并增强显著区域的特征。在 Transformer 编码器自注意力之上引入通道空间注意力和最大池化,以从通道和空间维度过滤冗余和干扰信息。本文在 Flickr30k 数据集和 MS-COCO 数据集上的实验表明,跨模态检索的性能有所提高,从而验证了所提方法的有效性和精细度。