小波变换+Mamba,图像去雾新突破,涨点起飞!

部署运行你感兴趣的模型镜像

论文介绍

题目:WDMamba: When Wavelet Degradation Prior Meets Vision Mamba for Image Dehazing

论文地址:https://arxiv.org/pdf/2505.04369

关注、星标公众号,精彩内容每日送达
来源:网络素材

创新点

🌫️ 一、首次提出“波⽂退化先验”用于图像去雾(Wavelet Degradation Prior

  • 论文通过对雾图与清晰图的小波变换分析,发现:

    雾霾退化主要集中在低频子带,而高频子带保留更多纹理细节。

  • 基于此,作者将图像去雾任务分解为:

  1. 低频结构还原(移除大范围雾气)

  2. 高频细节增强(恢复细节与清晰度)

  • 这一“粗到细”的策略是此前去雾方法未涉及的,有效减少了雾气在图像结构中的干扰。


  • ⚙️ 二、引入 Mamba State Space 模型进行低频建模(首用于图像去雾)

    • 在低频阶段,提出 Low-Frequency Restoration Network (LFRN)

      • 使用 Vision Mamba Block 建模低频子带图像的全局结构。

      • 具备类似Transformer的全局建模能力,但计算复杂度为线性,比Transformer更高效。

    • 首个将Mamba结构引入图像去雾任务的方法,展示了其对大范围图像退化建模的优势。


    🧠 三、提出自引导对比正则化机制(Self-Guided Contrastive Regularization, SGCR

    • 在训练阶段:

      • 使用中间的“粗去雾图像”作为 hard negative sample

      • 与GT(正样本)进行对比学习,促使网络生成更加自然、真实的最终图像

    • 与传统对比正则化相比,无需额外模型或采样技巧,并能显著提升细节表现力与稳定性。

    方法

    整体架构

    WDMamba 是一个面向图像去雾任务的粗到细两阶段深度学习框架,整体结构由三部分组成:首先通过小波变换提取图像的低频子带,并由基于 Vision Mamba 的低频重建网络(LFRN)高效建模全局结构,实现雾霾的初步去除;随后将粗略图像输入细节增强网络(DEN),借助 CNN 与频域增强模块恢复高频纹理细节;在训练过程中,模型还引入自引导对比正则化(SGCR),以粗图像作为“难负样本”指导网络生成更自然真实的最终图像,从而实现高质量、低计算量的图像去雾效果。

    1️⃣ Low-Frequency Restoration Network(LFRN)

    👉 结构建模阶段,解决全局雾气

    • 输入:通过 小波变换(DWT) 得到的 低频子带

    • 核心技术:

      • 使用 Mamba Block(视觉状态空间模型)进行建模。

      • 采用 U-Net 架构 + Haar Wavelet Downsampling(HWD) 替代普通下采样,避免信息丢失。

    • 输出:粗去雾图像(结构还原,但细节不足)。

    📌 特点:Mamba 具备 Transformer 类似的长依赖建模能力,但计算复杂度线性,高效建模全局雾结构


    2️⃣ Detail Enhancement Network(DEN)

    👉 细节增强阶段,补全纹理与高频细节

    • 输入:LFRN输出的粗图像。

    • 核心结构:

      • 参考 FFA-Net 设计,使用 CNN + 小型 U-Net 模块(U-Block)。

      • 引入 频域增强模块(FEM),在 幅度+相位域进一步恢复图像细节。

      • 使用 通道注意力机制(ECA) 聚焦关键特征。

    • 输出:最终去雾图像

    📌 特点:DEN注重高频信息的恢复,使图像更自然清晰。


    3️⃣ Self-Guided Contrastive Regularization(SGCR)

    👉 训练增强策略,提升感知真实感

    • 训练时:

      • 将 LFRN 输出的粗图像作为 “难负样本”

      • 通过对比学习,让最终输出图更接近 GT、更远离粗图像。

    • 效果:增强模型对细节的敏感性,使输出图像在视觉上更逼真、自然。

    消融实验结果

    ✅ Table II :消融实验:粗到细结构的有效性

    🧪 实验目的:

    验证 WDMamba模型中两个核心模块(低频恢复模块 LFRN 与细节增强模块 DEN)是否真的对性能有益。

    ✅ 实验说明:

    • M1、M2:单独使用 LFRN 或 DEN 均无法达到最佳效果,说明二者协同更优。

    • M3、M4:将 LFRN 中的 Mamba Block 换成常规的 RDB 模块,性能显著下降,验证了 Mamba 更适合处理全局结构

    • M5:即完整的 WDMamba 模型,性能最佳,说明“粗到细”策略有效。

    ✅ Table III :消融实验:自引导对比正则(SGCR)的效果

    🧪 实验目的:

    验证引入**自引导对比正则化(SGCR)**是否真正提升了模型表现,并与传统对比正则(CR)进行对比。

    ✅ 实验说明:

    • ✅ SGCR 单独使用就比传统 CR 效果好,说明用粗图作为负样本是有效策略

    • ✅ 两者结合效果最佳,说明两种策略具备互补性

    • 🔎 相比无对比正则,PSNR 提升了近 0.7dB,验证了对比机制的重要性。

    可视化结果

    🖼️ Figure 8 — 合成图像上的可视化比较

    ✅ 说明:

    • 数据集:RESIDE-6K(大规模合成雾)和 HSTS(测试用合成雾)

    • 对比方法:

      • AOD-Net

      • FFA-Net

      • Dehamer

      • IR-SDE

      • ConvIR-B

      • Ours(WDMamba)

      • Ground Truth(GT)

    • 每幅图下方标注了 PSNR/SSIM 值,定量指标辅助对比。

    • 说明重点

      • WDMamba 在远景与高密度雾区域表现更好;

      • 细节更丰富、颜色更自然;

      • 视觉清晰度优于所有 SOTA 方法。


    🖼️ Figure 9 — O-HAZE(真实雾图)上的可视化对比

    ✅ 说明:

    • 数据集:O-HAZE,真实雾环境下采集的室外图像。

    • 对比方法与 Figure 8 相似。

    • 说明重点

      • WDMamba 不仅去除了雾,还保留了真实自然的色彩;

      • 比如天空区域不泛白、绿植颜色真实;

      • 对真实图像的泛化能力优于传统或CNN方法。


    🖼️ Figure 10 — 真实世界无GT图像的可视化效果

    ✅ 说明:

    • 图像来源:

      • 第一、二张来自 Fattal’s dataset

      • 第三、四张采集自网络

      • 第五张:手机拍摄的真实雾天图像

    • 说明重点

      • WDMamba 的图像更清晰、颜色不偏色;

      • 在街景、远山等复杂背景中表现稳定;

      • 没有 GT(Ground Truth),但肉眼可判断:

      • 展示了 WDMamba 在非合成场景下的强鲁棒性和实用性。

    (全文完)

    声明:我们尊重原创,也注重分享;文字、图片版权归原作者所有。转载目的在于分享更多信息,不代表本号立场,如有侵犯您的权益请及时联系,我们将第一时间删除,谢谢!

    图片

    想要了解FPGA吗?这里有实例分享,ZYNQ设计,关注我们的公众号,探索

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

<think>好的,用户的问题是如何在Python中使用Mamba库实现小波变换的结合。首先,我需要确认Mamba库是否原生支持小波变换。根据之前的知识,Mamba主要用于状态空间模型,如SSM的处理,可能不直接包含小波变换功能。因此,可能需要结合其他库如PyWavelets来实现。 接下来,用户提到的引用中有几个相关的研究,比如引用[1]中的小波变换特征调制块,引用[4]中的基于小波的Mamba块(WMB)。这些文献指出,小波变换用于提取多尺度全局信息,而Mamba处理长程依赖。因此,实现步骤可能包括:使用PyWavelets进行小波分解,将得到的低频和高频分量输入到Mamba模型中处理,然后再进行重构。 我需要考虑如何将小波分解后的数据适配到Mamba的输入结构。例如,小波分解后的各子带可能需要作为不同的通道输入到Mamba模块中。此外,是否需要自定义层来整合小波和Mamba?比如在编码器部分使用小波变换,然后在Mamba的Backbone中处理特征。 另外,用户提供的引用[2]中的MobileMamba提到了多感受野特征交互模块,其中包含小波变换增强的Mamba。这可能意味着在模型的不同阶段应用小波变换,比如浅层使用小波提取特征,深层用Mamba处理。因此,代码示例可能需要分阶段构建模型,先进行小波处理,再传递给Mamba层。 还需要注意PyWavelets的使用方法,确保正确进行小波分解和重构。同时,Mamba库的安装和基本用法需要指导用户,比如如何导入并定义Mamba模型层。 最后,验证实现的有效性,比如在图像处理任务中测试结合后的模型效果,确保小波变换Mamba能够协同工作,提升特征提取能力。可能还需要引用相关文献中的结构,如编码器-主干-解码器架构,引用[1]和[4]中的方法,来增强回答的可靠性。</think>在Python中结合小波变换Mamba库实现特征处理,需要分为三个步骤:小波分解、Mamba特征建模和小波重构。以下是具体实现方案: ### 一、实现步骤 1. **小波分解**:使用PyWavelets库进行多尺度分解 2. **特征处理**:用Mamba处理低频全局信息 3. **高频增强**:结合傅里叶变换优化高频细节(参考[^4]的FFAB模块) ### 二、代码实现 ```python import pywt import torch from mamba_ssm import Mamba class WaveletMambaBlock(torch.nn.Module): def __init__(self, in_channels=3, wavelet_type='haar'): super().__init__() self.wavelet = wavelet_type self.mamba = Mamba( d_model=in_channels*4, # 小波分解后通道数增加 d_state=16, d_conv=4, expand=2 ) def forward(self, x): # 小波分解 LL, (LH, HL, HH) = pywt.dwt2(x.detach().numpy(), self.wavelet) # 通道合并 [B, C*4, H/2, W/2] features = torch.cat([LL, LH, HL, HH], dim=1) # Mamba处理全局信息 global_feat = self.mamba(features) # 小波重构 reconstructed = pywt.idwt2( (global_feat[:, :3], (global_feat[:, 3:6], global_feat[:, 6:9], global_feat[:, 9:12])), self.wavelet ) return reconstructed ``` ### 三、关键实现 1. **多尺度特征融合**:将小波分解的LL/LH/HL/HH四分量拼接为多通道输入(符合[^1]中的多尺度全局信息提取) 2. **Mamba参数配置**:`d_state`控制状态空间维度,建议设置16-64之间 3. **高频细节处理**:可添加傅里叶调整模块(参考[^4]的FFAB): ```python class FFAB(torch.nn.Module): def __init__(self): super().__init__() self.fft_conv = torch.nn.Conv2d(12, 12, 3, padding=1) def forward(self, x): fft_feat = torch.fft.fft2(x) phase = torch.angle(fft_feat) return self.fft_conv(phase) # 相位分量优化细节 ``` ### 四、验证示例 ```python # 测试输入 [batch, channel, height, width] x = torch.randn(1, 3, 256, 256) # 创建模型 model = WaveletMambaBlock(in_channels=3) # 前向传播 output = model(x) print(f"输入形状:{x.shape} → 输出形状:{output.shape}") ``` ### 五、性能优化建议 1. **多阶段架构**:参考[^2]的三阶段网络设计,在浅层使用小波块,深层用纯Mamba 2. **GPU加速**:使用`CuPy`替代PyWavelets的GPU加速实现 3. **量化部署**:应用Mamba的8-bit量化降低显存占用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值