论文阅读：VMamba: Visual State Space Model

最新推荐文章于 2024-12-30 16:36:47 发布

fishfuck

最新推荐文章于 2024-12-30 16:36:47 发布

阅读量1.6k

点赞数 20

分类专栏：论文阅读文章标签：论文阅读 python 深度学习机器学习计算机视觉分类算法 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fishfuck/article/details/136548338

版权

论文阅读：VMamba: Visual State Space Model

abstract

卷积神经网络（CNNs）和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性，具有线性复杂度，但ViTs在拟合能力上超越了它们，尽管它们面临着二次方复杂度的挑战。仔细检查发现，ViTs通过整合全局感受野和动态权重实现了卓越的视觉建模性能。这一观察启发我们提出了一种新的架构，它继承了这些组件，同时提高了计算效率。为此，我们从最近引入的状态空间模型中汲取灵感，提出了视觉状态空间模型（VMamba），它在不牺牲全局感受野的情况下实现了线性复杂度。为了解决遇到的与方向敏感性相关的问题，我们引入了交叉扫描模块（CSM）来遍历空间域，并将任何非因果视觉图像转换为有序的块序列。

3. Method

3.1 Preliminaries

State Space Models

State Space Models (SSMs) 通常被视为线性时不变系统，它们将激励 $x(t)\in\mathbb{R}^L$ 映射到响应 $y(t)\in\mathbb{R}^L$ 。数学上，这些模型通常被表述为线性常微分方程（ODEs），公式如下：

$\begin{aligned}h^{\prime}(t)&=Ah(t)+Bx(t)\\y(t)&=Ch(t)+Dx(t)\end{aligned}$

其中，参数包括状态大小为 $N$ 的矩阵 $A\in \mathbb{C}^{N\times N},B, C\in\mathbb{C}^N$ 以及跳跃连接 $D\in\mathbb{C}^1$

最低0.47元/天解锁文章

博客等级

码龄6年

39
原创

363
点赞

424
收藏

268
粉丝

关注

私信

热门文章

分类专栏

笔记 3篇
论文阅读 13篇

最新评论

论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：MonoScene: Monocular 3D Semantic Scene Completion
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。