Vision Mamba代码笔记

原创

已于 2025-12-12 23:36:44 修改 · 1.2w 阅读

179 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

于 2024-05-20 21:56:33 首次发布

1 论文回顾

基本思路

论文解读见：

《VideoMamba》论文笔记_video mamba-优快云博客

注意

Vision Mamba和VIT的输入和输出的shape的形状是相同的（VIT基于Transformer的Encoder设计，输入经过多层MHA和MLP计算，输入和输出的形状相同，Mamba的SSM架构就可以做到输入与输出token的个数以及每个token的维度相同，自然也可以做到整个输入和输出的形状相同，再者Vision Mamba的设计参照VIT的结构，自然也要注意输入与输出形状相同。两者的输入流经过各自对应的Encoder之后都具备了上下文信息，其效果相同，效率上基于Mamba的模型会更胜一筹。
正如1所说，Vision Mamba的设计参照VIT，这两个工作的流程是相同的，这里主要指的是图片打patch 再concat上class token再加上Position Embedding这个流程，两个模型唯一不同的地方就是Emcoder部分的不同，VIT使用的是Transformer的Encoder，Vim使用的是Mamba的Encoder，二者都是用于token间信息交互，上下文建模的

2 环境配置

按照官方readme.md配置，如果有问题照着下面这个链接改

vision mamba 运行训练记录，解决bimamba_type错误-优快云博客

值得说明的一点是，如果你之前在跑其他的mamba，环境拿过来是不能直接直接用的，因为标准的Mamba类是没有bimamba_type这个参数的，

所以，需要去Vim代码官网去找到mamba-1p1p1包，下载之后放自己项目里

事实上Vision Mamba重写了这个Mamba类，可以看到里边是由bimamba_type这个参数的（这其实也是Vision Mamba的主要贡献），执行如下代码

cp -rf mamba-1p1p1/mamba_ssm /home/liyhc/anaconda3/envs/mamba/lib/python3.10/site-packages
#后边是系统的mamba的安装路径，自己照着自己环境mamba的安装路径进行修改

3 代码笔记

3.1 代码链接

官方代码链接

Vim/vim/models_mamba.py at main · hustvl/Vim (github.com)

我手敲的带中文注释的链接

Johnny-Haytham/Vim: Vim with chinese notation (github.com)

3.2 Module

3.2.1 PatchEmbed

class PatchEmbed(nn.Module):
    def __init__(self, img_size=224,patch_size=16,stride=16,in_channels=3,embed_dim=768,norm_layer=None,flatten=True):
        super(PatchEmbed, self).__init__()
        img_size = to_2tuple(img_size)
        patch_size = to_2tuple(patch_size)#将img_size和patch_size化成元组的形式
        self.img_size = img_size
        self.patch_size = patch_size
        #一个patch形成一个grid（网格），这里记录网格的形状
        self.grid_size = ((img_size[0] - patch_size[0]) // stride + 1 , (img_size[1] - patch_size[1]) // stride + 1)
        self.num_patches = self.grid_size[0] * self.grid_size[1]#总共的patch个数
        self.flatten = flatten
        #打patch的操作，实际为卷积的操作(为了不重复卷积，步长的大小理论上因该等于卷积核的大小）
        self.proj = nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=stride)
        self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity()#nn.Identity的输入等于输出，通常作为占位层使用

    def forward(self, x):
        B, C, H, W = x.shape
        assert H == self.img_size[0] and W == self.img_size[1],\
            f"Input img size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})"
        x = self.proj(x)#B,C,H,W——>B,embed_dim,grid_size,grid_size
        if self.flatten:
            x = x.flatten(2).transpose(1, 2)#B,embed_dim,grid_size,grid_size——>B,embed_dim,grid_size*grid_size——>B,grid_size*grid_size,embed_dim
        x = self.norm(x)
        return x

3.2.2 Vim Encoder Block

class Block(nn.Module):
    def __init__(
            self, dim, mixer_cls,
            norm_cls = nn.LayerNorm,
            fused_add_norm=False,residual_in_fp32=False,drop_path=0.
    ):
        super(Block, self).__init__()
        self.residual_in_fp32 = residual_in_fp32
        self.fused_add_norm = fused_add_norm

        self.mix

最低0.47元/天解锁文章

22 条评论

开心生活没一天 2025.08.10
请问能在windows下运行吗

傅里叶不会级数 2025.04.30
pt_hw_seq_len这个是啥意思呢，为什么是14

weixin_46492954 2025.03.24
想问一下，self.if_bidirectional为TRUE且bimamba_type是v2的时候，mamba已经内嵌了双向扫描，为什么还在在forward_features里面正反两次输入并相加呢

weixin_46492954 2025.03.24
想问一下，self.if_bidirectional为TRUE且bimamba_type是v2的时候，mamba已经内嵌了双向扫描，为什么还在在forward_features里面正反两次输入并相加呢

weixin_45906453 2024.11.06
我按博主的方式修改了1p1p1，然后causal_conv1d出问题了，报错TypeError: causal_conv1d_fwd(): incompatible function arguments. The following argument types are supported:，请问博主是怎么回事
- prayoooo回复weixin_45906453 2025.05.10
  你解决了吗这个问题
- weixin_44953020回复weixin_45906453 2024.11.12
  同问啊，一样的报错

槐中路保安 2024.10.31
那个mixer_cls不是把Mamba嵌入到整个block结构里吗，你注释说“代表Vim Encoder对class token的拼接方式”是啥意思，拼接方式不是在VisionMamba里定义的吗，if_cls_token

护花铃0326 2024.10.09
使用cp -rf命令会删除原先的ssm存在的文件吧，一个一个文件夹复制保险一些
- 护花铃0326回复护花铃0326 2024.10.09
  好吧，我刚刚仔细看了一下，mamba1.11的mamba_ssm包就这么多文件，更多的文件都是更高级的包才有的[face]emoji:010.png[/face]
- 护花铃0326回复护花铃0326 2024.10.09
  毕竟vision mamba只改了部分mamba_ssm的内容

风雨眠 2024.08.28
按照博主提供的方式可以运行成功，感谢博主！！不过有个参数 if_devide_out, 官方的代码是 if_divide_out,需要修改使得代码和下载文件中的一致，否则会出现报错：TypeError: Mamba.__init__() got an unexpected keyword argument 'if_devide_out'
- JohnnyHaytham回复风雨眠 2024.08.28
  那个代码后来更新了，原来的mamba块就用的if_devide_out,现在他针对分割任务进行了更新，所以把这个变量改了

tacooo 2024.08.16
想更正一下博主自己写的那个main.py , 里面有的类中有个参数是 if_devide_out, 但实际上官方的代码是 if_divide_out, 所以如果要运行这个的话得把这个参数统一起来
- JohnnyHaytham回复tacooo 2024.08.20
  其实这个不是我打错了，那个代码后来更新了，我点开进去发现原来的mamba块就用的是if_devide_out,后来它改了

hhhhhGnE 2024.07.16
subprocess.CalledProcessError: Command '['/usr/bin/gcc', '/tmp/tmpqd8_tk80/main.c', '-O3', '-I/home/shuyuan/anaconda3/envs/vim/lib/python3.10/site-packages/triton/common/../third_party/cuda/include', '-I/home/shuyuan/anaconda3/envs/vim/include/python3.10', '-I/tmp/tmpqd8_tk80', '-shared', '-fPIC', '-lcuda', '-o', '/tmp/tmpqd8_tk80/_layer_norm_fwd_1pass_kernel.cpython-310-x86_64-linux-gnu.so', '-L/lib/x86_64-linux-gnu', '-L/lib/i386-linux-gnu', '-L/lib/x86_64-linux-gnu', '-L/lib/i386-linux-gnu']' returned non-zero exit status 1.博主你好，环境装好了，按你的代码运行models_mamba报了这个错，这个怎么解决呢[face]emoji:010.png[/face]
- MrIqzd回复hhhhhGnE 2025.01.02
  我也遇到了。系统可能同时安装了 32 位和 64 位的 CUDA 库，然后默认是32位，导致失败。运行一下[code=plain] find /usr -name libcuda.so [/code] 如果出现/usr/lib/i386-linux-gnu，说明用的是32位，改成64位的，一般是/usr/lib/x86_64-linux-gnu，具体怎么改可以找找gpt