一种具有细粒度和多尺度的多源跨模态遥感图像检索方法
前言
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。本文介绍一种遥感领域非对称的跨模态多源图像检索方法,使用多尺度自注意力模块提取遥感图像的显著特征,并根据该特征引导多源检索信息的动态整合和表征。
相关代码与数据集RSITMD已开源,欢迎领域学者使用交流:
https://github.com/xiaoyuan1996/AMFMN
Z. Yuan, et al., “Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval,” in IEEE Transactions on Geoscience and Remote Sensing, doi: 10.1109/TGRS.2021.3078451.
一、背景介绍
近些年来,遥感图像极大地提升了人们对地球的感知和观察能力,如何从大量的遥感数据中挖掘出有价值的信息是一项非常有挑战性的工作。
基于深度学习的遥感图像检索方法,虽已获得一定效果,但现有算法仍存在一定的改进空间:
- 遥感图像往往包含大量和查询信息无关的冗余目标,如何对这些目标进行动态滤除并获得更加显著的目标信息是提高检索精度的重中之重。
- 相比于自然图像,遥感图像多尺度的特性决定了需要建立适应多尺度输入的检索模型。
- 遥感图像极强的类内相似度意味着软正样本的存在,随即导致了模型在训练中面临着正样本歧义的问题。
- 现有遥感图文数据集中的检索文本较为粗糙,这进一步降低了模型对细粒度文本的区分能力。
二、算法介绍
针对以上问题,本文提出了一种遥感图像多源检索的方法,并构建了一套具有多个检索源且更具细粒度的遥感图文数据集 RSITMD (Remote Sensing Image-Text Match Dataset)。
本文方法建立了非对称的跨模态多尺度图像多源检索算法AMFMN(Asymmetric Multimodal Feature Matching Network),并利用样本对的文本先验相似度信息建立了动态可变的 margin。
1.非对称的跨模态多尺度图像多源检索算法 (AMFMN)

2.基于先验相似度的动态margin调整策略

3.更加细粒度的多源遥感图文数据集(RSITMD)

上图展示了使用 BLEU 和 ROUGH 指标可视化的自然场景图文数据集 (a-b) 和遥感场景图文数据集 (c-f) 的相似度曲线。数据集类内相似度在理想情况下是一条左上到右下方的对角线。相比于常用的遥感图文数据集,RSITMD 具有更加细粒度的文本描述,相似度曲线几乎与自然场景下持平。
三、实验结果
本文实验基于包含 RSITMD 在内的四个遥感图文数据集。部分实验结果如下:



总结
本文提出一种非对称和多尺度的遥感图像多源检索方法,该方法通过显著性掩膜和对查询信息的动态引导获得了较好的检索结果。未来将考虑如何将该方法应用在实际场景下,降低方法的模型参数和计算量,进一步提高方法的实用性。
参考文献:
[1] Shi, Z., & Zou, Z. (2017). Can a machine generate humanlike language descriptions for a remote sensing image?. IEEE Transactions on Geoscience and Remote Sensing, 55(6), 3623-3634.
[2] Chen, Y., Lu, X., & Wang, S. (2020). Deep Cross-Modal Image-Voice retrieval in Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing.
[3] Lu, X., Wang, B., Zheng, X., & Li, X. (2017). Exploring models and data for remote sensing image caption generation. IEEE Transactions on Geoscience and Remote Sensing, 56(4), 2183-2195.
提出一种非对称的跨模态多尺度遥感图像检索方法AMFMN,利用多尺度自注意力模块提取显著特征,并引入动态margin调整策略解决正样本歧义问题。构建细粒度遥感图文数据集RSITMD提升模型检索性能。
1253

被折叠的 条评论
为什么被折叠?



