Remote CLIP论文解读——来自2024_TGRS

最新推荐文章于 2025-04-07 19:25:11 发布

Striker_Eureka

最新推荐文章于 2025-04-07 19:25:11 发布

阅读量1.7k

点赞数 26

分类专栏：多模态目标检测模型论文解读文章标签：目标检测计算机视觉人工智能笔记

本文链接：https://blog.youkuaiyun.com/LWK999999/article/details/143835473

版权

多模态目标检测模型论文解读专栏收录该内容

9 篇文章

订阅专栏

CLIP在遥感中的应用仍然有限，本文的研究旨在填补这一空白。

其实本论文就是提出了一个如何扩充遥感数据集的一个方法而已，并没有提出新的模型，非常简单。

遥感挑战：传统遥感模型主要依赖于自监督学习（SSL）和掩码图像建模（MIM），但这些模型只学习低级特征，缺乏语义理解。

数据拓展：面临的主要挑战是缺乏预训练数据。

基于广泛的遥感数据集进行数据缩放，将预训练数据扩展到所有可用开放数据集组合的12倍。基于提出的掩码到框（M2C）和框到标题（B2C）生成策略，将异构注释（包括目标检测边界框和语义分割映射）转换为统一的图像标题数据格式。使预训练数据量达到现有公开数据集的12倍。

一 .M2B转换方法：

将语义分割数据集的注释转换为边界框注释，并进一步转换为文本描述。这一步骤使得分割数据集能够被纳入B2C生成管道。

具体实现：首先，从输入掩码中获取每个类别的轮廓。然后，我们选择每个轮廓的左下角和右上角点作为其 bbx 坐标。最后，我们可以获得输入掩码中每个类别的边界框。

二 .B2C生成方法：

将物体检测数据集中的边界框注释转换为自然语言描述，以使其适应CLIP模型的文本编码器。这种方法通过规则生成描述，增加了图像中物体的空间分布和类别信息的多样性。

举例说明如下：

B2C 方法通过规则设计生成 5 个不同的自然语言描述，以保证文本的多样性。生成规则如下：

1.基于目标位置生成描述：

描述 1：针对检测框中心位置位于图像中心的目标，生成描述。例如：“图像中心有一架飞机。”

描述 2：针对检测框中心位置不在图像中心的目标，生成描述。例如：“图像边缘有一辆汽车。”

2.基于目标类别和数量生成描述：

描述 3：根据图像中的目标类别和数量，随机挑选部分物体生成描述。例如：

当某一类别数量较多（>10）时，用模糊表达替代具体数量：“图像中有许多汽车和一些飞机。”
当图像中只有少量物体时，列举具体的数量和类别：“图像中有 3 辆汽车和 2 架飞机。”

通过 B2C，目标检测数据集中的每张图像都可以生成多个高质量的图像-文本对，极大扩展了预训练数据规模，为 RemoteCLIP 的强大表现奠定了基础。

三.样本去重：

使用p-Hash算法对扩展后的数据集进行去重，确保训练集和测试集之间不存在重复样本，从而避免测试集污染问题。

具体实现：

通过将图像转换成定长哈希值来表示图像特征，用于图像检索和相似度计算的方法。我们采用基于p-Hash的块局部检测来识别重复图像。具体来说，我们为所有图像生成p-Hash值，并将每个值划分为N个段。同时建立N个字典，每个字典的键对应段索引，其值由该段中所有图像的p-Hash值组成。通过遍历所有字典，我们计算成对图像的p-哈希值之间的汉明距离。如果两个图像之间的距离小于阈值2，则认为它们是重复的。通过观察移除的重复样本，当阈值大于2时，容易出现重复数据删除过度。

RemoteCLIP使用CLIP策略进行训练，通过优化InfoNCE损失函数来对齐图像和文本的表示。

优化LInfoNCE可以为CLIP模型带来以下两个重要属性：

表示对齐：配对成功的图像和文本样本产生高相似性，配对不成功产生低相似性。
表示分组：将语义相似样本的（单模态）表示分组在一起，而将语义不相似样本的（单模态）表示分开。例如，所有表示“猫”的图像应该在特征空间中彼此接近，而与表示“狗”的图像则相距较远。例如，在图像分类任务中，如果模型已经学习到了将语义相似的图像聚集在一起，那么在新的图像上进行分类时，模型可以更容易地找到正确的类别标签。这是因为相似图像的特征表示在特征空间中是接近的，这使得分类器（如线性分类器）可以更准确地做出预测。

四.新的遥感计数基准

引入了一个新的遥感计数基准“RemoteCount”来评估从1到10的物体计数精度。因为大规模预训练使CLIP模型能够进行零射击物体计数。这里我们感兴趣的是RemoteCLIP是否具有这种细粒度的语言理解能力。通过将其标题中的数字替换为从1到10的所有数字，从而用9个其他可能的标题来增强现有的标题，并计算图像与每个标题之间的相似性得分。