遥感(RS)是一项观测、监测和解读地球的关键技术,在地球科学、经济学及人道主义等领域具有广泛应用。尽管人工智能(AI)尤其是深度学习已在遥感领域取得重大进展,但开发更智能的遥感系统仍存在独特挑战:包括地球环境的复杂性、多样的传感器模态、独特的特征模式、变化的空间与光谱分辨率以及时序动态性。与此同时,大型基础模型(FMs)因其卓越的泛化能力和零样本迁移能力,已在多个领域展现出巨大潜力,但其成功目前主要局限于自然数据(如图像和视频),对各类非光学模态的遥感数据存在性能下降甚至失效的问题。这激发了日益增长的研究兴趣——开发遥感基础模型(RSFMs)以满足对地表、大气和海洋的地球观测(EO)任务的复杂需求。
本综述系统回顾了遥感基础模型这一新兴领域:首先概述其发展动机与背景,继而介绍基础概念;随后对现有RSFM研究进行分类评述,包括其在视觉基础模型(VFMs)、视觉-语言模型(VLMs)、大语言模型(LLMs)等方向的数据集与技术贡献;此外,我们在公开数据集上对这些模型进行基准测试,讨论现存挑战,并为这一快速演进领域提出未来研究方向。
Introduction
深度学习的快速发展为遥感及其地球观测应用带来了显著进步。然而当前大多数模型依赖显式设计的任务特定学习目标,这种方法需要大量人力进行数据集收集与标注,并消耗巨额计算资源进行模型训练与评估。此外,这些模型在不同任务间表现出有限的泛化与迁移能力,制约了遥感系统的广泛采用。源自多样传感器与平台的遥感数据具有大规模、复杂性、动态性和异构性等固有特征,以协同、鲁棒且通用的方式准确智能解译遥感数据,仍是推进遥感解译系统发展的关键且尚未充分探索的挑战。
随着深度学习持续演进,大型基础模型(FMs)已成为革命性趋势——其定义为"在广泛数据上训练(通常采用大规模自监督)、可适配(如微调)至下游任务的模型"[1]。包括大语言模型(LLMs)、视觉基础模型(VFMs)和视觉-语言模型(VLMs)在内的FMs,已在多样任务中展现出卓越的泛化与小样本迁移能力。这一转变标志着从单一用途模型向通用模型、从监督预训练向自监督预训练的范式转移,显著降低训练资源需求的同时扩展了模型应用范围。
然而这些进展主要集中于自然数据领域(如图像文本),在应用于遥感等分布外领域时面临重大挑战:例如遥感与自然图像在传感器模态、采集视角、空间分辨率、光谱波段和时间规律性等方面的本质差异,阻碍了FMs在遥感中的直接应用。尽管存在挑战,FMs在自然领域的成功为遥感基础模型(RSFMs)的发展提供了宝贵启示——其在利用大规模地理空间数据、建模复杂动态地表、提升数据效率、扩展应用范围、增强任务性能和降低碳足迹方面展现出巨大潜力。
开发RSFMs相比通用领域FMs面临四大关键挑战:1) 自然与遥感数据间的显著域差异;2) 缺乏海量预训练数据集;3) 缺失专为RSFMs定制的深度架构;4) 需解决不同于自然域通用FMs的独特遥感应用。为应对这些挑战,近期研究日益聚焦于开发先进RSFMs并更好地整合各类基础模型至遥感领域(如图1所示)。

尽管发展迅速,RSFMs领域仍缺乏对此新兴多维领域的全面综述。本文旨在通过系统梳理RSFMs最新进展填补该空白,从学习范式、数据集、技术方法、基准测试和未来研究方向等多视角展开探索。如图2所示,我们根据模型类型将现有方法分为三类:遥感视觉基础模型、遥感视觉-语言模型及其他RSFMs(如大语言模型与生成式基础模型),后续章节将详细评述这些类别。

本研究的主要贡献有三:首先对RSFMs最新进展进行全面系统回顾;其次在不同传感器模态与任务上对RSFMs进行基准测试与深度分析;最后指出研究挑战并提出潜在研究方向。
本综述结构如下:"背景"章节提供RSFMs背景知识,包括学习范式、常见遥感传感器模态及相关综述;"遥感基础模型基础"章节深入探讨深度网络架构与典型遥感解译任务;“遥感视觉基础模型”"遥感视觉-语言模型"和"其他遥感基础模型"章节系统回顾各类方法;"基准性能"章节总结比较现有方法在多基准数据集上的表现;最后"未来方向"章节展望RSFMs的前沿研究方向。
Background
Remote Sensing Learning Paradigms 遥感学习范式
本节简要概述遥感模型学习范式的演进历程:从传统机器学习到深度学习,最终发展至当前的基础模型范式。以下我们简要介绍每种范式,重点阐述其关键差异、技术进步以及对遥感任务的影响。
1) 传统机器学习:该范式依赖人工设计特征和简单学习模型,将特征分类至预定义类别。但这种方法极度依赖领域专业知识进行特征创建,对复杂遥感任务和场景效果有限,其可扩展性与泛化能力因此受到严重制约。
2) 深度学习从零训练与预测:深度学习通过端到端可训练的深度神经网络(DNNs)取代复杂特征工程,彻底变革了遥感解译,显著提升了模型精度与鲁棒性。该范式研究侧重于DNN架构设计,以从各类遥感传感器模态中提取有效特征用于地球观测任务。但仍存在三大挑战:①遥感DNNs专为特定任务定制,泛化能力有限;②从零训练导致收敛缓慢;③大规模训练数据收集与标注耗时费力且成本高昂。

3) 基础模型学习范式:如图3所示,基础模型学习通常包含两个主要阶段:①预训练阶段——模型学习可泛化、可迁移的表征;②应用阶段——将预训练模型应用于下游任务。
预训练阶段可分为两种常见方法:
◗ 监督预训练:在大规模标注数据集(如ImageNet[2])上使用监督损失目标预训练DNNs。虽在许多下游任务中达到最先进性能,但需要大量标注数据,收集成本高昂。
◗ 无监督预训练:利用自监督学习(SSL)[3][4]通过优化各种无监督pre-text任务,从未标注数据中学习有用且可迁移的表征。该方法在遥感领域尤具优势——卫星等平台上的众多传感器持续采集海量数据,几乎无法完成标注。但预训练模型可能无法直接适用于特定任务。
预训练阶段完成后,基础模型可通过三种常见方式应用:
◗ 全参数微调与预测:利用基础模型的强表征作为起点,为特定下游任务全参数微调以促进收敛提升性能。但会覆盖并丢失原始强表征。
◗ 参数高效调优(PEFT)与预测:与全微调不同,PEFT仅引入轻量可学习参数同时冻结基础模型主干,既能高效学习领域或任务特定特征,又保留基础模型的强表征空间。对于因数据分布差距和任务目标多样导致性能挑战的场景(如遥感),PEFT能在不损害基础模型能力的前提下适配领域与任务。
◗ 零样本预测:基于大规模数据训练的基础模型常展现强零样本预测能力,无需领域或任务特定微调即可预测。但由于自然与遥感数据间的显著域差异,基于自然数据集训练的通用领域基础模型在遥感场景中常表现不佳。加之缺乏网络级规模的遥感预训练数据集,目前尚无任何遥感基础模型能展现如通用领域基础模型般强大的零样本能力。
Common Remote Sensing Sensor Modalities 常见遥感传感器模态
本节概述现有遥感基础模型(RSFMs)常用的传感器模态,图4展示了这些模态的示例。

◗ 光学RGB图像(真彩色图像)是遥感中最广泛使用的传感器模态之一,通过部署在卫星、飞机、无人机和地面车辆等平台上的相机捕获红、绿、蓝光谱波段的可见光。虽然通用基础模型可直接应用于这些图像,但由于遥感与自然图像间的域差异,性能往往欠佳。
◗ 多光谱图像(MSIs) 通过多个光谱波段捕获数据,扩展至可见RGB范围之外,包含近红外(NIR)和短波红外区域。虽然比RGB提供更多光谱信息,但由于输入不兼容、域差异以及光谱数据复杂性增加,应用于通用基础模型时面临挑战。
◗ 高光谱图像(HSIs) 通过数十个狭窄连续的光谱波段捕获数据,相比多光谱和光学RGB图像能提供更精细的光谱信息。这种高光谱分辨率允许精确识别材料和物质,使高光谱传感器成为矿物勘探、植被分析和环境监测等任务的理想选择。然而高维度特性带来计算复杂度和过拟合风险等挑战,且独特的光谱特性与域差异使其难以兼容通用基础模型。
◗ 合成孔径雷达(SAR) 使用主动微波信号捕获图像,可实现全天候昼夜数据采集。SAR提供详细的地表信息,揭示地表结构与材料特性,对地形测绘、灾害监测和森林结构分析等应用具有重要价值。极化SAR(PolSAR)通过测量雷达波极化进一步增强SAR能力,提供更深入的地表特性理解;干涉SAR通过结合同一区域的多幅SAR图像进行相位差分析,可检测微小地表形变,对精确地形测绘至关重要。但SAR图像因斜距投影呈现独特几何特征,不同于传统中心投影系统,且其斑点噪声等复杂特性对通用基础模型构成重大挑战。
◗ 激光雷达点云 通过发射激光脉冲并测量其从表面反射返回的时间来捕获三维空间数据,可生成地形和物体的高精度三维表征,是地形测绘、森林结构分析和城市建模等任务的理想选择。尽管蕴含丰富几何信息,但点云的不规则与稀疏特性为通用基础模型应用于此类自然数据带来挑战。
◗ 热红外图像(TIR) 捕获物体散发的热量,提供基于温差的数据,使其在环境监测、城市热岛分析、植被健康评估和野火检测等应用中发挥价值。TIR传感器探测红外光谱的辐射发射,即使在弱光或夜间条件下也能实现热成像。但TIR图像的空间分辨率通常低于光学传感器,且数据受大气条件和表面发射率影响,为通用基础模型准确解译热信息带来挑战。
◗ 数字表面模型(DSMs) 表征地球表面高程(包含建筑物、植被和基础设施等所有物体),通常源自激光雷达、雷达或立体影像,广泛应用于城市规划、洪水建模和景观分析。虽然DSMs提供有价值的表面特征三维信息,但其网格状结构和高程特定数据对通用基础模型构成挑战。
Relevant Surveys 相关综述研究
本综述系统性地回顾并评估了跨遥感各领域的基础模型(FMs),包括视觉基础模型(VFMs)、视觉-语言模型(VLMs)、大语言模型(LLMs)、生成式基础模型及其他类型。虽然自然领域已有大量综述[1][11]涵盖多样化范围与应用(见表1),但这些研究并未专门针对地球科学与遥感模态。此外,现有地球科学与遥感相关综述多聚焦特定主题,如地球与气候遥感基础模型[7]、自监督学习[5][6]以及视觉-语言建模[12]。文献[10]虽对地球科学基础模型进行了广泛但宏观的回顾,但主要强调通用领域里程碑模型而非地球科学专项进展,缺乏对遥感与地球科学领域数据集资源和技术进展的深度分析,难以有效捕捉该领域最新发展动态。更重要的是,这些综述主要依赖定性分析,缺失全面评估所必需的定量基准测试。本研究旨在通过提供各类遥感基础模型与遥感模态的全面最新概述,重点突出领域最新进展,以弥补上述研究空白。
Foundations of Remote Sensing Foundation Models
基础模型(FMs)由两大核心技术要素支撑:迁移学习与规模效应[1]。迁移学习指利用从某一任务或模态获得的知识来提升其他任务性能,在深度学习中其主要实现方式是预训练——模型先在代理任务上训练,再针对特定下游任务微调。虽然迁移学习促进了基础模型的发展,但规模效应才是其能力提升的关键。这种规模效应取决于三个核心因素:1) 计算硬件(尤其是GPU)的进步;2) 深度学习架构的演进;3) 大规模训练数据集的可用性。
在"遥感视觉基础模型"、"遥感视觉-语言模型"和"其他遥感基础模型"章节中,我们将详细评述遥感基础模型(RSFMs)采用的预训练方法及其对应数据集。本节将首先在"深度网络架构"章节介绍基础深度架构,随后在"典型遥感解译任务"章节讨论最常见下游遥感任务。

最低0.47元/天 解锁文章
855

被折叠的 条评论
为什么被折叠?



