今日分享三篇论文:利用VMamba的基础模块Visual State Space (VSS)来解决下游任务(分割和检测)。
目录
一、Mamba YOLO: SSMs-Based YOLO For Object Detection
二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation
三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation
一、Mamba YOLO: SSMs-Based YOLO For Object Detection
Published in: Arxiv
Contributions: Mamba-YOLO, ODSS Block
1、Overall Architecture
Backbone(特征提取)+PAFPN(不同特征尺度融合)+Head(检测)
2、ODSS Block
这个结构由三部分组成LocalSpatial (LS) 和2D Selective Scan (SS2D) 以及ResGated (RG) 三部分,整体的结构风格借鉴了Transformer block。
LocalSpatial Block:提取局部信息,但在Mamba结构中有一层卷积,正如该博客提到的,或许是因为局部提取能力不足。(注:对于Mamba不太了解的可以看看这个博客,感觉挺好的!!!)
SS2D:提取全局信息 (long-range dependencies)
ResGated Block:提高模型性能
二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation
Published in: IEEE GEOSCIENCE AND REMOTE SENSING LETTERS
Contributions: RS^3Mamba, Collaborative Completion Module (CCM)
1、Overall Architecture
Encoder分为两个分支(主+辅),辅分支的VSS block提取全局特征,主分支的residual block采用Resnet18结构来提取局部特征,并通过CCM融合。Decoder采用UNetformer中的结构。
2、CCM
很容易可以看出,提取到的全局和局部特征再次进行特征提取,即(这是辅Encoder提取到的全局特征)进一步通过Local Branch提取局部特征,
同理。
三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation
Published in: Arxiv
Contributions: VM-UNet
1、Overall Architecture
跟上一篇一样都是Encoder和Decoder(U结构),引入VSS结构,验证其有效性。
四、总结
1、基本都是提取全局特征和局部特征,然后进行融合。
注:在CV领域,通道上的特征信息是否可以考虑!!! 进行融合!!!(融合的策略如何考虑)
2、从实验结果上来看,好像确实比transformer性能要好。