图文检索（15）：TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval

简简单单的貔貅

已于 2024-10-28 17:00:27 修改

阅读量560

点赞数 16

分类专栏：图文检索文章标签： transformer 深度学习人工智能

于 2024-10-28 16:58:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuzaiyebol/article/details/143304648

版权

TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval

摘要
3 模型
结论

发布时间（2024 IEEE）

标题：TSFE：图像文本检索的 Transformer 和特征增强方法研究

摘要

传统：单流
本文：双流
特征增强方法（TSFE，Transformer and Feature Enhancement Method）
1）特征提取层
2）特征增强注意力（FEA），增强显著特征
3）引入通道注意力，过滤图像的冗余信息

近年来，跨模态检索在信息检索、多媒体处理等领域得到广泛应用，其关键是通过一个模态查询找到另一个模态中的相关数据。在跨模态图形检索中，通常使用相互注意机制来交互图像和文本特征。然而，这种交互机制导致难以提取单独的视觉和文本特征进行后续的索引步骤，尤其是在大规模检索任务中。此外，在图像表示中，图像特征中的非语义信息会导致图像和文本特征对齐不准确。因此本文提出了一种用于图像文本检索的Transformer和特征增强方法（TSFE）。该方法通过在图像和文本两个独立的分支上使用分层的Transformer编码结构来校对和定位最终的输出特征，从而更好地融合底层特征和更高级别特征。设计特征增强注意力 (FEA) 模块以推断图像中的非语义信息并增强显著区域的特征。在 Transformer 编码器自注意力之上引入通道空间注意力和最大池化，以从通道和空间维度过滤冗余和干扰信息。本文在 Flickr30k 数据集和 MS-COCO 数据集上的实验表明，跨模态检索的性能有所提高，从而验证了所提方法的有效性和精细度。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。