论文题目:Multimodal Fusion Transformer for Remote Sensing Image Classification
摘要
传统图像分类方法和现有的卷积神经网络(CNN)在充分利用多模态数据进行遥感分类方面存在不足。同时,现有的Transformer在处理外部分类标记(CLS)时,常遇到泛化不佳的问题,且可能涉及高计算开销。本研究旨在引入一种新的多模态融合Transformer(MFT)网络,以增强遥感图像的分类能力。其主要目标是通过引入一种新颖的多头跨patch注意力(mCrossPA)机制,将高光谱图像(HSI)与其他多模态数据(如LiDAR)进行整合,以提高土地覆盖分类的性能。通过与传统CNN和现代Transformer模型的比较,MFT在多个遥感数据集上都显示出了显著的性能提升,特别是在土地覆盖分类任务中。
Part.01 研究贡献
1.多模态融合:MFT模型通过多头交叉补丁注意力机制实现了HSI和LiDAR等不同模态数据的有效融合。与传统的简单数据拼接不同,mCrossPA能够在Transformer编码器中动态地学习各模态之间的关系,并充分利用不同数据源的互补信息。
2.外部分类标记(CLS token:LiDAR数据的CLS token作为外部信息引入,不仅能够提供空间信息,还能通过交叉补丁注意力机制增强HSI补

最低0.47元/天 解锁文章
3367

被折叠的 条评论
为什么被折叠?



