CLIP在遥感中的应用仍然有限,本文的研究旨在填补这一空白。
其实本论文就是提出了一个如何扩充遥感数据集的一个方法而已,并没有提出新的模型,非常简单。
遥感挑战:传统遥感模型主要依赖于自监督学习(SSL)和掩码图像建模(MIM),但这些模型只学习低级特征,缺乏语义理解。
数据拓展:面临的主要挑战是缺乏预训练数据。
基于广泛的遥感数据集进行数据缩放,将预训练数据扩展到所有可用开放数据集组合的12倍。基于提出的掩码到框(M2C)和框到标题(B2C)生成策略,将异构注释(包括目标检测边界框和语义分割映射)转换为统一的图像标题数据格式。使预训练数据量达到现有公开数据集的12倍。
一 .M2B转换方法:
将语义分割数据集的注释转换为边界框注释,并进一步转换为文本描述。这一步骤使得分割数据集能够被纳入B2C生成管道。
具体实现:首先,从输入掩码中获取每个类别的轮廓。然后,我们选择每个轮廓的左下角和右上角点作为其 bbx 坐标。最后,我们可以获得输入掩码中每个类别的边界框。
二 .B2C生成方法:
将物体检测数据集中的边界框注释转换为自然语言描述,以使其适应CLIP模型的文本编码器。这种方法通过规则生成描述,增加了图像中物体的空间分布和类别信息的多样性。
举例说明如下:
B2C 方法通过规则设计生成 5 个不同的自然语言描述,以保证文本的多样性。生成规则如下:
1.基于目标位置生成描述:
描述 1:针对检测框中心位置位于图像中心的目标,生成描述。例如:“图像中心有一架飞机。”
描述 2:针对检测框中心位置不在图像中心的目标,生成描述。例如:“图像边缘有一辆汽车。”
2.基于目标类别和数量生成描述:
描述 3:根据图像中的目标类别和数量,随机挑选部分物体生成描述。例如:
- 当某一类别数量较多(>10)时,用模糊表达替代具体数量:“图像中有许多汽车和一些飞机。”
- 当图像中只有少量物体时,列举具体的数量和类别:“图像中有 3 辆汽车和 2 架飞机。”
-
通过 B2C,目标检测数据集中的每张图像都可以生成多个高质量的图像-文本对,极大扩展了预训练数据规模,为 RemoteCLIP 的强大表现奠定了基础。
三.样本去重:
使用p-Hash算法对扩展后的数据集进行去重,确保训练集和测试集之间不存在重复样本,从而避免测试集污染问题。
具体实现:
通过将图像转换成定长哈希值来表示图像特征,用于图像检索和相似度计算的方法。我们采用基于p-Hash的块局部检测来识别重复图像。具体来说,我们为所有图像生成p-Hash值,并将每个值划分为N个段。同时建立N个字典,每个字典的键对应段索引,其值由该段中所有图像的p-Hash值组成。通过遍历所有字典,我们计算成对图像的p-哈希值之间的汉明距离。如果两个图像之间的距离小于阈值2,则认为它们是重复的。通过观察移除的重复样本,当阈值大于2时,容易出现重复数据删除过度。
RemoteCLIP使用CLIP策略进行训练,通过优化InfoNCE损失函数来对齐图像和文本的表示。
优化LInfoNCE可以为CLIP模型带来以下两个重要属性:
- 表示对齐:配对成功的图像和文本样本产生高相似性,配对不成功产生低相似性。
- 表示分组:将语义相似样本的(单模态)表示分组在一起,而将语义不相似样本的(单模态)表示分开。例如,所有表示“猫”的图像应该在特征空间中彼此接近,而与表示“狗”的图像则相距较远。例如,在图像分类任务中,如果模型已经学习到了将语义相似的图像聚集在一起,那么在新的图像上进行分类时,模型可以更容易地找到正确的类别标签。这是因为相似图像的特征表示在特征空间中是接近的,这使得分类器(如线性分类器)可以更准确地做出预测。
四.新的遥感计数基准
引入了一个新的遥感计数基准“RemoteCount”来评估从1到10的物体计数精度。因为大规模预训练使CLIP模型能够进行零射击物体计数。这里我们感兴趣的是RemoteCLIP是否具有这种细粒度的语言理解能力。通过将其标题中的数字替换为从1到10的所有数字,从而用9个其他可能的标题来增强现有的标题,并计算图像与每个标题之间的相似性得分。
RemoteCount 是为了评估视觉语言模型在遥感影像中对 物体计数 的能力而提出的基准数据集。以下是具体实现过程和评估方法:
1. 数据集的构建
RemoteCount 的数据主要来源于 DOTA 数据集 的验证集,经过筛选和重新标注,以适配物体计数任务。具体构建步骤如下:
(1) 类别选择(这些类别是遥感影像中常见且能够进行计数的目标。):RemoteCount 包括 13 类常见的遥感物体:飞机、直升机、圆形路口、桥梁、棒球场、跑道、篮球场、网球场、港口、足球场、游泳池、船只、储罐等。
(2) 物体数量范围:数据集涵盖 1 至 10 个目标的物体计数场景,每个图像都标注了与之匹配的文本描述(例如,“图中有 3 架飞机”)。
(3) 人工标注: 由五名研究生对数据集进行了手动标注,并进行了严格的人工验证,以确保数据质量和准确性。
(4) 样本数量:数据集中包含 947 个图像-文本对,每个图像都带有清晰的计数注释。
2. 数据标注方法
为了生成适合计数任务的图像-文本对:图像中目标的数量通过 DOTA 数据集中的检测框标注获取。
基于这些检测框标注,生成对应的自然语言描述,例如:“这张图片中有 5 辆汽车和 3 架飞机”。
当目标数量较多时,可能使用模糊描述(如“许多”或“大量”)以增强自然性。
3. 评估方法
在 RemoteCount 数据集上,模型的计数能力通过以下步骤进行评估:
(1) 文本描述生成:
- 为每张测试图像生成 10 个候选文本描述,每个描述中数字从 1 到 10(例如,“这张图片中有 1 架飞机”、“这张图片中有 2 架飞机”……)。
- 对于不同的实验,还测试了数字形式的多样性(如“one” 到 “ten” 和 “1” 到 “10”)。
(2) 相似度计算:
- 模型对图像和每个候选文本描述计算相似度,使用 L2 正则化 和点积计算相似度分数。
- 选择相似度最高的文本描述,其数字即为模型预测的物体数量。
(3) 准确率评估:
通过比较模型预测的数字与真实标注的数字,计算以下指标:
- Top-K 准确率(K = 2 到 10):真实数字是否包含在模型前 K 个预测中。
- Top-1 准确率:模型预测的最高相似度文本是否正确。
4. 实验结果
- RemoteCLIP 在物体计数任务上的表现显著优于原始 CLIP 模型。
- RemoteCLIP 的混淆矩阵接近对角线,显示其预测的准确性更高。
- 在 Top-K 准确率(例如 Top-6)上,RemoteCLIP 同样大幅领先 CLIP。
- RemoteCLIP 对数字表示的形式(如“one” 到 “ten” 和 “1” 到 “10”)也表现出更强的鲁棒性。