图像去模糊的高效视觉状态空间模型(EVSSM)

论文地址:https://arxiv.org/pdf/2405.14343

论文源码:https://github.com/kkkls/EVSSM

一、研究背景

  • 传统的卷积具有空间不变性和局部性,无法捕捉图像上空间变化的内容和非局部信息;
  • Transformer能够通过计算token之间的注意力捕捉全局信息,但是具有O(n^{2})的时间和空间复杂度,当处理高分辨率图像时这变得不可接受;
  • 状态空间模型(SSM)广泛应用与自然语言处理,具有线性或近线性的计算复杂度,改善的SSM(Mamba)提出的选择性扫描机制能够捕捉相关的信息,同时忽略不相关的信息;
  • 有的方法通过多方向扫描机制将SSM运用到视觉任务,但这大大增加了计算代价;
  • 论文提出了高效视觉扫描块(EVS),通过几何变换(翻转、转置)在单方向扫描中捕获多方向信息,显著降低计算成本。

二、方法设计

1. 整体结构

2. EVS模块

  • 几何变换:在每层EVS模块前交替应用转置或翻转,避免破坏图像空间结构。
  • 频域前馈网络(EDFFN):在频域筛选高频信息,提升细节恢复能力,同时减少计算量。

三. 实验结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值