Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model阅读笔记

问题:

1,representing visual data is challenging for SSMs due to the position-sensitivity of visual data 

(mamba is lack of positional awareness

2,the requirement of global context for visual understanding

(mamba is a unidirectional model

在MambaIRv2: Attentive State Space Restoration这篇文章中分别使用了positional embeding and "注意力机制"的引入C=(C+P),从而实现关注到全局

解决:

1,marks the image sequences with position embeddings 

这完全跟vision transformer(ViT)干的事情一样啊 

2,compresses the visual representation with bidirectional state space models.

感觉创新点的话就一个双向吧。 

本文的大框架:

ViT: 

 

Vision Mamba 是一个专注于提高计算机视觉任务性能的新型模型,相比传统Transformer架构,在速度和内存使用上有所改进。此模型由华中科技大学、地平线机器人及北京人工智能研究院的研究团队共同开发。 对于希望深入了解 Vision Mamba 并将其应用到实际项目中的开发者来说,可以参考如下资源和技术细节: 1. 论文《Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model》提供了关于双向状态空间模型的技术背景以及如何用于有效学习视觉表示的信息。这篇论文探讨了Vision Mamba相对于Transformers的优势,并解释了其工作原理。 2. 对于想要在本地环境中设置并调试Vision Mamba项目的开发者而言,有教程介绍了怎样借助PyCharm IDE来进行分布式命令设备上的调试过程,特别是针对Windows WSL2环境下的配置指南。这包括了将控制台命令形式传递给Pycharm的方法,以便更好地理解内部代码运作机制。 3. 社区讨论方面,优快云技术社区有关于Vision Mamba的文章分享,其中不仅描述了该模型的特点——比如速度快出2.8倍且节省高达87%的内存消耗——还提到了它被设计用来超越传统的Transformer结构。此外,还有结合LSTM神经网络创建名为VMRNN(Vision Mamba RNN)的新颖框架的例子,专门用于处理需要长时间依赖性的数据集,例如视频序列预测。 这些资料可以帮助有兴趣探索或实施Vision Mamba解决方案的专业人士获得必要的理论基础与实践指导。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值