【论文阅读】SegCLIP:用于高分辨率遥感图像语义分割的多模态视觉语言和快速学习
SegCLIP: Multimodal Visual-Language and Prompt Learning for High-Resolution Remote Sensing Semantic Segmentation
基于深度学习的语义分割方法层出不穷,取得了重大突破
目前的研究主要集中在视觉特征空间的表征学习上,多模态数据源的潜力还有待充分挖掘
视觉语言的基础模型,即对比语言图像预训练(CLIP),在视觉领域建立了一个新的范式
提出了一种基于语言描述的提示方法,使CLIP能够为遥感图像生成语义上不同的上下文信息
已经适应CLIP提取文本信息,从而指导视觉模型区分类
分利用文本数据的潜力,使用额外的真实的文本来细化模糊查询特征
实验结果表明,该方法在LoveDA、iSAID和UAVid公共语义分割数据集上表现出了上级的性能
一、介绍
高分辨率遥感图像的语义分割是现代空间信息技术的重要组成部分
遥感语义分割作为一项基本的计算机视觉任务,试图精确地将遥感图像的每个像素分类到具有特定语义信息的类中
语义分割依赖于
- 阈值分割
- 边缘检测
- 传统机器学习
这些方法通常难以处理复杂场景和动态环境,并且由于有限的手动特征表达、泛化能力差和准确性低
随着深度学习的发展,图像语义分割取得了重大进展
- 交叉融合网络CF-Net引入了HRRS图像的交叉融合模块,扩展了低层特征的感受野
- S-RA-FCN通过分析空间位置和特征图之间的全局关系来增强关系特征表示
基于Transformer的架构在HR-RS图像语义分割方面取得了很好的效果
但由于只关注单模态数据,而忽略了多模态数据丰富的语义潜力,导致性能瓶颈
开发一个多模态HRRS语义分割框架对于克服这一局限性至关重要
随着传感器的多样性和遥感图像数量的不断扩大
多模态方法在语义分割任务中的应用越来越受到关注[29]
常见的遥感数据包括
- 多光谱图像
- 激光雷达(LiDAR)
- 合成孔径雷达(SAR)数据
Pan等人证明,将LiDAR数据合并到2-D多光谱图像中可以有效地解决建筑物高度的变化
Li等人开发了一种用于土地覆盖分类的融合架构,采用神经结构搜索(NAS)将分层光学特征与SAR数据融合
Kang等人通过光学图像的知识转移增强了SAR图像分割性能
视觉语言表征学习成为计算机视觉研究的一个重要领域,其目标是利用深度学习技术从图像-文本对中提取统一的跨模态特征表征,从而增强各种多模态任务
相关的工作:
- Li等人[33]将文本元素与相应的图像区域对齐,从而增强语言和视觉组件之间的关联
- Rahhal等人[34]引入了多语言Transformer模型,该模型通过集成多语言特征和提高理解能力来提高跨模态检索的准确性
- 对比语言图像预训练(CLIP)[35]在视觉分类任务中取得了显着的成功
- Dong等人[36]利用CLIP通过将其与描述性文本信息相结合,显着提高了遥感图像中变化检测的准确性和效率
- Rao et al [37]和Yang et al [38]通过像素-文本对齐将CLIP纳入语义分割网络,显着提高了分割性能
我们将CLIP集成到掩模分类中,并提出了一种新的多模态HRRS语义分割框架SegCLIP
与像素文本匹配方法不同,我们提出了一种使用文本信息作为查询条件的新方法
每个Mask确定相应的区域是否属于查询文本所描述的对象
这些掩码不仅准确地识别特别是,受提示学习

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



