论文题目:Multimodal Fusion Transformer for Remote Sensing Image Classification

论文题目:Multimodal Fusion Transformer for Remote Sensing Image Classification

摘要

传统图像分类方法和现有的卷积神经网络(CNN)在充分利用多模态数据进行遥感分类方面存在不足。同时,现有的Transformer在处理外部分类标记(CLS)时,常遇到泛化不佳的问题,且可能涉及高计算开销。本研究旨在引入一种新的多模态融合Transformer(MFT)网络,以增强遥感图像的分类能力。其主要目标是通过引入一种新颖的多头跨patch注意力(mCrossPA)机制,将高光谱图像(HSI)与其他多模态数据(如LiDAR)进行整合,以提高土地覆盖分类的性能。通过与传统CNN和现代Transformer模型的比较,MFT在多个遥感数据集上都显示出了显著的性能提升,特别是在土地覆盖分类任务中。

Part.01 研究贡献

1.多模态融合:MFT模型通过多头交叉补丁注意力机制实现了HSI和LiDAR等不同模态数据的有效融合。与传统的简单数据拼接不同,mCrossPA能够在Transformer编码器中动态地学习各模态之间的关系,并充分利用不同数据源的互补信息。
2.外部分类标记(CLS token:LiDAR数据的CLS token作为外部信息引入,不仅能够提供空间信息,还能通过交叉补丁注意力机制增强HSI补丁的表示能力。这种方法有效避免了传统方法中可能出现的过拟合和冗余问题。
3.计算效率:尽管模型集成了多模态数据源,但通过mCrossPA机制,MFT模型在不显著增加计算开销的情况下,能够有效地融合不同类型的特征。相比传统的模型,MFT在遥感图像分类中展示了更高的准确性和更好的泛化能力。
4.高性能表现:通过与传统CNN和现代Transformer模型的比较,MFT在多个遥感数据集上都显示出了显著的性能提升,特别是在土地覆盖分类任务中。

Part.02 模型结构

本研究基于视觉Transformer(ViTs)在图像分类中的应用。该研究引入了mCrossPA来融合来自不同来源的数据,并通过标记化操作提高在分层特征空间中的表示学习能力提出的MFT网络在Transformer编码器中使用mCrossPA,将来自多模态数据的CLS标记与HSI补丁通过交叉注意力机制标记结合,LiDAR的CLS token作为查询(Query),HSI的补丁tokens作为键(Key)和值(Value)。通过计算查询和键之间的相关性来捕获HSI和LiDAR之间的关系,同时在交叉补丁注意力中,多个注意力头可以并行地学习不同维度的信息,进而捕捉更加复杂的特征依赖关系。如图1所示为MFT模型的总体框架。
所提出的多模态融合Transformer网络架构

图1 多模态融合Transformer(MFT)网络架构概览

Part.03 数据集

1.休斯顿大学(UH)数据集:由Compact Airborne Spectrographic Imager (CASI) 于2013年收集,包括HSI、MSI和LiDAR图像。HSI包含144个波段,MSI有8个光谱波段,所有图像均由340×1905像素组成,空间分辨率为2.5 m。该数据集包含15种不同的土地覆盖和土地利用类别,同时提供了固定大小的训练和测试样本。如图2为UH数据集的样本。
2.MUUFL Gulfport数据集:2010年11月使用Reflective Optics System Imaging Spectrometer (ROSIS) 传感器在南密西西比州立大学格尔夫波特校区上空收集。HSI包含325×220像素和72个光谱波段,LiDAR图像包含两个栅格的高程数据。去除有噪声的前8个和最后8个波段后,共有64个波段。该数据集描述了11个城市土地覆盖类别,包含53,687个地面真实像素点。如图3为MUUFL Gulfport数据集的样本。
3.特伦托数据集:在意大利特伦托南部农村地区,使用AISA Eagle传感器收集HSI数据,Optech ALTM 3100EA传感器收集LiDAR数据。HSI有63个波段,波长范围为0.42至0.99微米,LiDAR数据提供一个栅格的高程信息。空间分辨率为1 m,场景包括六种植被土地覆盖类别,共600×166像素。如图4为特伦托数据集的样本。
图2 UH数据集的样本

图2 UH数据集的样本

图3 MUUFL Gulfport数据集的样本

图3 MUUFL Gulfport数据集的样本

图4 特伦托数据集的样本

图4 特伦托数据集的样本

Part.04 实验结果

文章对比了多种模型,包括传统机器学习模型KNN, RF, SVM, 以及深度学习模型CNN1D, CNN2D, CNN3D, RNN, SpectralFormer和 ViT。文章使用了四个公开的高光谱数据集进行评估,展示了所提出的MFT网络在遥感图像分类中的优越性能,特别是在融合多模态数据方面的显著优势。研究使用整体准确率(OA)、平均准确率(AA)和Kappa系数(κ)等量化指标来评估模型性能。进行了广泛的实验,包括使用不相交的训练和测试样本进行测试。图5~7为各个模型间的实验结果对比。
整体准确率(Overall Accuracy, OA):表示分类正确的像素占总像素的比例。
平均准确率(Average Accuracy, AA):计算每个类别的分类准确率,然后取其平均值。
Kappa系数(Kappa Coefficient, κ)
在这里插入图片描述

图5

在这里插入图片描述

图6

在这里插入图片描述

图7

Part.05 研究展望

该文章引入了用于高效融合HSI与多模态数据的mCrossPA模块,而不会显著增加计算负担。展示了Transformer在遥感领域的实际应用优势,并提供了一种可扩展的多模态数据融合方法用于土地覆盖分类。该模型提供了一种灵活的方法,可整合多种数据类型,有助于环境监测、城市规划和资源管理等应用。该论文指出,在整合多个数据源时可能存在计算开销问题。尽管该方法提高了性能,但需要进一步研究计算成本与模型准确性之间的平衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值