ChatGPT和生成式预训练变换模型4(GPT-4)取得的显著成就,引发了人们对面向通用人工智能(AGI)的大语言模型(LLMs)的研究热潮。这些模型提供了更接近人类思维的智能解决方案,使我们能够运用通用人工智能(AI)解决各类应用场景中的问题。然而在遥感(RS)领域,关于通用人工智能实现的学术文献仍相对匮乏。现有遥感领域与AI相关的研究主要集中于视觉理解任务,却忽视了对地物目标及其关联关系的语义理解。这正是视觉语言模型(VLMs)的优势所在——它们能够实现对图像及其关联文本描述的联合推理,从而深化对底层语义的理解。视觉语言模型不仅能够完成遥感图像的视觉识别,更能建模语义关联关系,并生成图像的自然语言描述。这使得它们更适合需要视觉与文本双重理解的任务,如图像描述生成和视觉问答(VQA)。本文对视觉语言模型在遥感领域的研究进行了全面综述,系统梳理了最新进展,指出了当前面临的挑战,并揭示了潜在的研究机遇。具体而言,我们回顾了视觉语言模型在主流遥感任务中的应用,包括图像描述生成、基于文本的图像生成、基于文本的图像检索(TBIR)、视觉问答、场景分类、语义分割和目标检测。针对每类任务,我们分析了代表性研究成果并讨论了研究进展。最后,我们总结了现有研究的局限性,并为未来发展方向提供了可行性建议。本综述旨在系统梳理视觉语言模型在遥感领域的研究现状(见图1),并激励这一充满前景的领域产生更多创新性研究。

Introduction
深度学习已成为遥感领域各类应用的有力工具。早期研究主要集中于利用从图像中提取的视觉特征来执行各类任务,如目标检测、语义分割和变化检测。作为最常用的深度学习方法之一,卷积神经网络(CNN)[89]能够自动学习遥感影像的层次化表征,从而捕获局部与全局空间特征及模式。此外,注意力机制[190]被融入深度学习模型,通过使模型聚焦于输入中的特定区域,提升了在遥感任务中的性能。得益于深度神经网络强大的特征学习能力,深度学习模型在各种遥感任务中证明了其有效性,相比传统机器学习方法[245][267]实现了最先进的性能。然而,现有基于深度学习的研究大多聚焦于视觉理解任务,忽视了对地物及其关系的语义理解。例如,在进行土地覆盖分类时,纯视觉模型可能将建筑屋顶像素误分类为高速公路——因为模型缺乏“高速公路不可能位于建筑屋顶”这一常识性知识。
近年来,大语言模型(LLM)已成为自然语言处理(NLP)和计算机视觉领域的热门研究方向。这些模型通过构建大规模Transformer网络进行自然语言理解,并在语言建模、文本生成和问答等多种语言理解任务中达到了最先进的性能[24][145]。值得注意的是,ChatGPT[135]的显著成就引发了人们对通用人工智能(AGI)领域的广泛兴趣与研究热潮。凭借其世界知识和先进推理能力,这类模型在语言理解方面展现出前所未有的进步。LLM的巨大成功也推动了视觉语言模型(VLM)研究的蓬勃发展,促进了AI 2.0时代的到来。
视觉语言模型通常被定义为结合计算机视觉与自然语言处理技术的人工智能模型家族,旨在实现对视觉与文本信息的综合理解。凭借联合识别视觉与语义模式及其关系的能力,VLM不仅能识别图像中的对象,还能理解对象间的关系,并生成图像的自然语言描述。这使其更适用于需要视觉与文本双重理解的任务,如图像描述生成、基于文本的图像检索(TBIR)和视觉问答(VQA)。更重要的是,通过将视觉模型与LLM相结合,VLM提供了更全面、更类人的视觉内容理解能力。近年来,VLM在多种计算机视觉任务中展现出令人瞩目的成果,包括图像理解[23][264]、VQA[94][95]、文本到图像生成[157]、语义分割[26][251]、目标检测[124][247]等。
在遥感领域,VLM的应用是一个相对新兴的研究方向。VLM独特地融合了视觉理解能力、类人的世界知识和强大的推理能力,从而能够以更智能、更接近人类的方式增强遥感数据分析。总体而言,VLM相比以往仅依赖视觉信息的方法具有多重优势。与早期纯视觉模型主要专注于监督学习且在处理分布外数据时面临挑战不同,VLM利用语义推理能力建立视觉概念之间的联系。因此,VLM在面对分布外数据时表现出显著提升的性能。这一突破为零样本/开放词汇的视觉理解任务铺平了道路,更有效地契合了实际应用中感兴趣视觉对象可能属于未知类别或概念的场景。
此外,VLM为探索将通用知识与专家知识融入遥感数据视觉分析任务提供了可能。例如,VLM能够意识到船只更可能位于水中而非陆地上。因此,基于VLM的目标检测模型会倾向于避免在陆地上检测船只,这展现出提升遥感数据分析能力的潜力。不仅如此,VLM还促进了需要视觉与语言理解的新型任务的执行,例如图像描述生成、VQA和语言引导的编辑。
设想一个基于VLM的聊天机器人应用场景,它允许包括非遥感专家在内的用户使用日常语言进行对话交互,以理解和分析遥感数据。这类系统的前景极其广阔。近期研究[137]探索了基于GPT架构的最先进大语言模型Visual ChatGPT[212]的潜力,构建了一个专用于一系列遥感图像处理任务的聊天机器人。在该系统中,先进的ChatGPT模型充当智能提示管理器,确保充分理解用户提示并无缝映射到合适的工具或算法。
随着与遥感数据相关的文本元数据日益丰富,研究人员已开始探索在该领域结合视觉与语言模型的使用[188]。近年来,一些早期尝试致力于探索VLM在各种遥感数据分析任务中的应用,包括遥感图像描述生成(RSIC)[105][106][126][170][201][249][250][256][269]、基于文本的遥感图像生成[14][22][223][255]、基于文本的遥感图像检索[1][4][31][148][149][237][238][239]、VQA[3][13][19][121][234][258]、场景分类[91][109][143][172][196]、语义分割[26][251]、Few-Shot目标检测[72][124][247]等。尤为值得注意的是,RS5M[254]通过从公开数据集中精心筛选遥感相关图像,构建了一个大规模遥感图像描述数据集,并利用BLIP-2模型[94]自动生成图像描述。开创性工作RSGPT[62]构建了一个高质量、人工标注的遥感图像描述数据集,为遥感领域大型VLM的发展提供了重要基础。随着大规模遥感数据集的日益普及和深度学习技术的不断进步,VLM的使用预计将在未来遥感应用中扮演重要角色。
本研究全面回顾了遥感领域模型从纯视觉模型到语言模型、再到视觉语言模型的演进历程。具体而言,我们对遥感领域中VLM的最新进展进行了广泛的文献调研。此外,我们还为遥感应用中VLM的未来潜在研究方向提供了有价值的见解和建议。我们的工作有助于更好地理解VLM当前的发展现状,并为该领域的研究人员探索这些模型在遥感任务中的潜力提供了指导。
From Vision to VLMs
CNN
Vision Transformer
LLMs
VLMs
鉴于预训练模型在计算机视觉和自然语言处理领域的成功,研究人员开始尝试预训练同时融合两种模态的大规模模型,这类模型被称为视觉语言模型(VLMs)。视觉语言模型可分为两种架构:融合编码器模型和双编码器模型。融合编码器模型通过多层跨模态变换器编码器联合编码图像-文本对,并融合其视觉与文本表征;而双编码器模型则分别对图像和文本进行编码,并借助点积或多层感知机捕捉模态间的交互关系。
融合编码器
融合编码器以视觉特征和文本嵌入作为输入,采用多种融合技术以捕捉视觉与文本模态之间的交互。经过自注意力或交叉注意力运算后,最终层的潜在特征被视为不同模态的融合表征。VisualBERT [98] 是一项开创性工作,它通过自注意力机制隐式地对齐输入文本元素与对应图像中的区域。该方法结合了用于处理自然语言的BERT [42]模型和用于生成候选区域的预训练Faster R-CNN [155]模型。原始文本连同从候选区域提取的图像特征被视为无序的输入标记,并输入至VisualBERT中,通过多层变换器联合处理以捕捉复杂的关联(见图5)。随后,包括Uniter [27]、OSCAR [103]和InterBert [111]在内的多个视觉语言模型也采用BERT作为文本编码器,Faster R-CNN作为候选区域生成器,以建模视觉-语言交互。

与单流架构中使用的自注意力操作不同,双流架构利用交叉注意力机制捕捉视觉与语言模态之间的交互。交叉注意力层通常包含两个单向子层:一个处理从语言到视觉的信息,另一个处理从视觉到语言的信息。这些子层促进了两种模态之间的信息交换和语义对齐。一个典型例子是ViLBERT [123],该模型分别处理视觉和文本输入,并采用协同注意力变换器层实现模态间的信息交互。图6展示了每一流如何由变换器层(TRM)和新型协同注意力变换器块(Co-TRM)构成。此外,近期研究如LXMERT [181]、Visual Parsing [225]、ALBEF [96]和 WenLan [68] 也在交叉注意力之前采用独立的变换器,以解耦模态内与跨模态的交互。

Chen等人[23]提出了VisualGPT,该模型通过一种新颖的自复活编码器-解码器注意力机制,将预训练语言模型适配到少量域内图像-文本数据中。
双编码器
双编码器采用两个独立的编码器分别对视觉与文本信息进行编码。通过注意力层或点积等操作,将对应编码器生成的图像与文本嵌入映射至共享语义潜在空间,进而计算视觉与语言嵌入之间的相似度得分。与融合编码器机制相比,双编码器机制无需在变换器中采用复杂的交叉注意力操作,而是通过预计算并存储图像和文本嵌入,使视觉-语言交互建模更加高效。

以对比语言-图像预训练模型(CLIP)[144]为例(如图7所示),该模型联合使用文本编码器和图像编码器,以精准匹配(图像,文本)样本对。设 xi,xiTx_i, x^T_ixi,

最低0.47元/天 解锁文章
1687

被折叠的 条评论
为什么被折叠?



