论文题目：Multimodal Fusion Transformer for Remote Sensing Image Classification

最新推荐文章于 2025-09-07 23:59:39 发布

原创

最新推荐文章于 2025-09-07 23:59:39 发布 · 1k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

论文题目：Multimodal Fusion Transformer for Remote Sensing Image Classification

论文地址：https://ieeexplore.ieee.org/document/10153685
项目地址：https://github.com/AnkurDeria/MFT

摘要

传统图像分类方法和现有的卷积神经网络（CNN）在充分利用多模态数据进行遥感分类方面存在不足。同时，现有的Transformer在处理外部分类标记（CLS）时，常遇到泛化不佳的问题，且可能涉及高计算开销。本研究旨在引入一种新的多模态融合Transformer（MFT）网络，以增强遥感图像的分类能力。其主要目标是通过引入一种新颖的多头跨patch注意力（mCrossPA）机制，将高光谱图像（HSI）与其他多模态数据（如LiDAR）进行整合，以提高土地覆盖分类的性能。通过与传统CNN和现代Transformer模型的比较，MFT在多个遥感数据集上都显示出了显著的性能提升，特别是在土地覆盖分类任务中。

Part.01 研究贡献

1.多模态融合：MFT模型通过多头交叉补丁注意力机制实现了HSI和LiDAR等不同模态数据的有效融合。与传统的简单数据拼接不同，mCrossPA能够在Transformer编码器中动态地学习各模态之间的关系，并充分利用不同数据源的互补信息。
2.外部分类标记（CLS token：LiDAR数据的CLS token作为外部信息引入，不仅能够提供空间信息，还能通过交叉补丁注意力机制增强HSI补