自监督论文阅读笔记 Urban feature analysis from aerial remote sensing imagery using self-supervised and semi-s

“Urban feature analysis from aerial remote sensing imagery using self-supervised and semi-supervised ”


Abstract

        使用计算机视觉分析俯视图像是一个在学术文献中受到相当关注的问题。在这个领域运行的大多数技术都是高度专业化的,并且需要对大型数据集进行昂贵的手动注释。这些问题在本文通过开发一个更通用的框架来解决,该框架结合了表示学习的进步,这使得在分析具有有限标记数据的新类别图像时具有更大的灵活性。首先,基于动量对比机制创建了未标记航空影像数据集的稳健表示。随后通过构建具有少至 200 个标记图像的准确分类器,专门用于不同的任务。从 6000 万张未标记的图像中成功地在 10 年内对城市基础设施演变进行低水平检测,证明了本文的方法在推进定量城市研究方面的巨大潜力。(先自监督,后半监督)


Introduction

        深度学习方法 [1] 的进步使得能够 以完全自动化的方式 分析非常大的数据集,包括那些 包含俯视和卫星图像 的数据集。由于改进的捕获和存储技术 以及 处理能力的进步,高清航空影像数据集变得越来越可用。结合起来,这可以对更高分辨率的遥感场景进行详细分析。传统的深度学习过程 遵循数据收集、数据标记、模型训练 和 对未标记数据进行推理的步骤,自动为未标记数据分配标签。

        由于可用数据的海量,计算机视觉技术特别适合有效地处理它们以用于不同的任务,例如分类、目标检测和语义分割。在机器学习中,对标记数据进行操作以构建预测模型的 监督学习 已被广​​泛用于利用航空图像中的信息。当提供大量标记数据时,监督学习技术表现出色。然而,这些数据需要 手动标记,这是 劳动密集型的,因此成本高昂且难以扩展

        相比之下,未标记的数据(例如卫星图像)更容易获得并且数量更多。几种学习范式已经研究了如何更有效地利用未标记的数据源,包括自监督学习和半监督学习。

        航空影像技术的最新进展导致可用的高空影像数量迅速增加。这种增长主要是由于图像捕获的分辨率更高(例如 - 以 10 厘米分辨率捕获的图像将产生比以 100 厘米 (1m) 分辨率捕获的图像多 100 倍的数据。但是,为了利用这些数据,存储和处理能力也必须跟上。因此,分析流程必须能够处理此类数据,同时保持 分析准确性 和 速度 等关键性能指标。

        高分辨率航空影像捕捉详细的城市特征,从而能够潜在地识别重要的城市特征 [2],例如大规模的自行车基础设施。本文介绍了使用更小的标记图像集(少至 200 张图像)有效探索如此大量数据(扩展到 6000 万张图像)的方法。在澳大利亚的 15 个城市引入、评估和部署了利用自监督、半监督的方法。


 自监督学习:

        自监督学习通过设置一个权重任务来从未标记的数据集中提取知识,在前置任务上,模型可以以监督的方式进行预训练 [3]。在自监督工作流中,重点是自监督前置任务学习的 中间表示,而不是最大化预测准确性。这种中间表示用于目标检测等下游任务,期望在前置任务期间学习的表示从语义和结构的角度来看是稳健的【自监督定义】

        目前有大量工作专注于使用这些技术 学习与任务无关的表示。例如,Noroozi 和 Favaro [4] 通过选择几个相邻的像素块来制定拼图任务。改组块后,模型的任务是恢复正确的空间顺序(见图 1a)。此任务需要基于图像中可见的对象和细节进行高级推理。因此,在预训练任务中表现出色的模型可能包含有用的图像表示。类似地,Doersch 等人 [5] 设计了检索与所选图像部分相比的图块的相对位置的任务(见图 1b)。

        重要的是,虽然自监督学习倾向于 减少训练神经网络的标记要求,但它并没有提供标记大型数据集的方法。这是因为自监督学习 通常为模型提供伪标签 以构建世界的初始表示,这有助于 减少它需要查看的标记数据点的数量 以构建关于特定类别的假设,但不必须标记与这些特定类别相关的数据点


半监督学习:

        半监督学习对应于机器学习技术的类别,其中大量未标记数据与较小的标记数据集合一起可用。这些方法尝试 使用少量标记数据 以迭代的方式 将标签分配给大量未标记数据。因此,标记数据集在分析过程中会增长,从而产生更准确的模型。 

        先前的工作使用半监督方法(在某些研究领域也称为 boot-strapping引导方法)通过 生成更多训练数据 来提高预测模型的预测准确性。然而,很少有人以完全自动化的方式运行。 Yarowsky [6] 在这种自行学习的模型范式中的一项早期工作是研究使用 标记句子 和 未标记数据 来执行词义消歧的可能性。一些作品还探讨了这种技术在计算机视觉中的适用性。例如,Cui 等人 [7] 通过合并来自他们模型的高置信度预测 来迭代地增长他们的数据集。但是,每个步骤都采用了手动审查过程。 Huang 等人 [8] 使用基于形态和颜色的指数,使用预定义的公式,以及公开可用的信息源来生成训练集 并将图像分类为建筑物、道路、土壤、水、阴影和植被的类别。分类方法的一个关键问题通常是假设类是互斥的。然而,在城市场景的航拍图像中,道路、植被、土壤、水和建筑物可以共存于同一图像中。       

        一般来说,半监督学习策略带来的关键改进可以包含在两个层面:

模型层面: 涉及到模型训练过程中的改进,并专注于 从较少的初始标记图像样本中 为模型提供更稳健的表示

数据层面: 涉及半监督标记过程本身的改进,允许通过 启发式 和 形态学特征提取 等技术 进行独立于模型的改进。

        模型级别的改进通常包括即使在半监督学习范围之外也很有用的技术。事实上,其中许多技术都用于改进监督学习模型。例如,Miyato 等人 [9] 使用 对抗训练,Siddharth 等人 [10] 使用解耦特征学习和增强策略,例如 Cubuk 等人 [11] 中引入的 RandAugment 也常用。

        数据级别技术在模型范围之外运行。这些增加了模型在没有人工干预的情况下正确标记未标记图像样本的概率。例如,Kothari 和 Meher [12] 使用未标记的邻域信息来提高模型性能。

        由于这两种技术 适用于不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值