今天和大家分享一种前沿的深度学习创新技术:小波变换与Transformer的融合架构。这种技术通过将小波变换强大的频域分析能力与Transformer模型的长程特征捕获优势深度结合,实现了局部信息与全局信息的高效交互,在高光谱图像分类、视频修复、图像去噪、真实场景去雾和遥感目标检测等多个任务中取得了显著突破,表现远超传统方法。这种融合架构不仅提高了模型性能与鲁棒性,更大幅降低了计算资源消耗,尤其适合计算资源有限的实际场景,已成为计算机视觉领域极具潜力的研究热点。为方便大家了解并快速入门,我特意筛选了几篇高质量论文供大家参考,感兴趣的同学们赶快行动起来吧!
- WaveFormer: Spectral–Spatial Wavelet Transformer for Hyperspectral Image Classification
全文总结:本文提出了一种名为WaveFormer的频谱-空间小波Transformer模型,以解决传统Transformer模型在高光谱图像分类中因采用平均池化操作导致的信息丢失问题。WaveFormer通过引入小波变换进行可逆的下采样,有效地保留了图像空间与光谱域的完整特征信息,显著提高了分类精度与模型鲁棒性。
主要目的:
- 提出一种能同时保留高光谱图像空间和光谱信息的Transformer模型,解决传统Transformer方法中平均池化导致的信息损失问题,并提升模型在高光谱图像分类任务上的表现。
结果:
- WaveFormer模型在Pavia University和University of Houston两个标准高光谱数据集上均取得了最先进(SOTA)的分类性能;
- 在两个数据集上的整体分类准确率(OA)分别达到95.66%和96.54%,超越现有的Transformer和CNN模型;
- 实验表明,WaveFormer模型显著提高了空间-光谱特征的表达能力,具备更佳的分类鲁棒性与泛化能力。
创新性:
- 首次将小波变换与Transformer模型深度融合,提出WaveFormer框架,实现了高光谱图像中空间与光谱特征的有效保留;
- 创新性地提出空间-光谱小波卷积机制,增强了图像特征块与通道特征间的结构交互;
- 提供了一种新型的Transformer架构,解决了传统Transformer方法中的信息损失问题,并提升了特征表达的精细性与分类准确性。
未来研究方向:
- 探索WaveFormer在更广泛、更复杂高光谱图像数据中的应用和泛化性能;
- 优化WaveFormer模型的计算复杂性,满足实时遥感分类任务的需求;
- 研究WaveFormer框架在半监督、自监督学习条件下的表现,以减少对标注数据的依赖。
2、WaveFormer: Wavelet Transformer for Noise-Robust Video Inpainting
全文总结:本文提出了一种名为WaveFormer的小波Transformer网络,旨在解决现有Transformer模型在视频修复任务中由于特征嵌入噪声导致的注意力计算不准确问题。该方法创新性地利用离散小波变换(DWT),将嵌入特征分解为低频与高频成分,仅用干净的低频特征计算注意力权重,从而显著降低噪声对注意力机制的干扰,提升视频修复的视觉质量和时空连贯性。
主要目的:
- 提出一种能够有效降低噪声对Transformer注意力计算影响的视频修复方法,以提高视频修复的视觉效果和稳定性。
结果:
- WaveFormer在YouTube-VOS和DAVIS两个常用视频修复基准数据集上均取得了当前最优(SOTA)表现;
- 在PSNR和运动误差(Ewarp)指标上分别获得了7.45%和9.48%的相对性能提升;
- 用户主观评价实验进一步验证了WaveFormer视频修复结果在视觉细节与时空一致性上的显著优势。
创新性:
- 首次理论性地证明了噪声对Transformer模型注意力计算的负面影响;
- 提出WaveFormer框架,将离散小波变换(DWT)引入Transformer,有效地在频域分离特征中的噪声;
- 创新性地实现低频与高频特征间的注意力共享机制,进一步提升了视频修复质量与鲁棒性。
未来研究方向:
- 探索WaveFormer在其他计算机视觉任务(如视频超分辨率、视频去噪等)中的泛化能力;
- 优化WaveFormer的推理效率,以满足更高分辨率、更大规模视频数据的实时修复需求;
- 扩展WaveFormer以应对复杂视频修复场景,如大尺度运动与长时序视频。
3、EWT: Efficient Wavelet-Transformer for single image denoising
全文总结:本文提出了一种高效的小波Transformer网络(Efficient Wavelet-Transformer, EWT),以解决传统Transformer模型在单幅图像去噪任务中存在的计算开销高、显存占用大等问题。EWT通过引入频域转换管道(Frequency-domain Conversion Pipeline, FCP),实现了图像特征的有效压缩;同时设计了多级特征聚合模块(MFAM)和双流特征提取模块(Dual-stream Feature Extraction Block, DFEB),融合了CNN和Transformer的优点,有效捕获了图像的局部与全局信息。实验表明,EWT在去噪性能上与当前最先进方法持平,同时推理速度提高超过80%,GPU内存占用降低超过60%。
主要目的:
- 提出一种兼顾性能与资源效率的图像去噪Transformer模型,以解决传统Transformer方法在计算资源和内存占用上的瓶颈问题。
结果:
- EWT在Set12、BSD68、Urban100、Kodak24等主流灰度和彩色图像去噪数据集上取得了与现有最优方法相当或更好的性能;
- 相较于原始Transformer模型,EWT模型推理速度提升超过80%,GPU显存占用降低超过60%;
- 在真实噪声图像数据集(如SIDD)上,EWT模型同样表现优异,进一步验证了方法的泛化性和实用性。
创新性:
- 首次将Transformer与小波变换深度融合,提出EWT模型,显著降低Transformer模型在图像去噪任务中的计算开销;
- 设计了频域转换管道(FCP),通过小波变换有效减少图像分辨率,同时完整保留图像的频域信息;
- 提出了多层次特征聚合模块(MFAM)和双流特征提取模块(DFEB),创新性地结合CNN和Transformer的优势,实现了局部与全局特征信息的高效融合。
未来研究方向:
- 扩展EWT模型在更广泛的图像修复任务(如超分辨率、图像去模糊)中的性能;
- 进一步优化模型结构,以实现更高分辨率图像的实时处理;
- 探索EWT模型在更复杂噪声环境和实际应用场景中的泛化能力。
4、WaveletFormerNet: A Transformer-based Wavelet Network for Real-world Non-homogeneous and Dense Fog Removal
全文总结:本文提出了一种名为WaveletFormerNet的小波Transformer网络,以解决现有深度学习模型在真实世界非均匀与浓雾图像去雾任务中的细节损失与颜色失真问题。通过创新性地将离散小波变换(DWT)与视觉Transformer(ViT)深度融合,WaveletFormerNet能够有效保留图像的纹理细节与结构信息。此外,该模型采用并行卷积机制捕获多频特征,降低了计算成本,同时设计了特征聚合模块(FAM)进一步提升了特征提取能力。大量实验表明,WaveletFormerNet在真实世界浓雾数据集上表现显著优于现有最优方法。
主要目的:
- 提出一种能够高效应对真实复杂雾霾环境的Transformer网络结构,以缓解传统卷积神经网络和Transformer模型在浓雾场景图像去雾中的细节缺失与颜色失真问题。
结果:
- 在I-Haze、O-Haze、NH-Haze、Dense-Haze等多个真实浓雾基准数据集上均实现了当前最优(SOTA)的性能;
- 与现有方法相比,WaveletFormerNet在峰值信噪比(PSNR)和结构相似性(SSIM)指标上均取得显著优势;
- 在实际应用的特征点匹配测试中也表现出了更优异的泛化性与鲁棒性。
创新性:
- 首次提出了结合离散小波变换(DWT)与视觉Transformer的WaveletFormer和IWaveletFormer模块,成功解决了下采样造成的纹理细节与颜色信息丢失问题;
- 引入了并行卷积Transformer结构,高效捕获图像多频率信息,显著降低了模型的计算复杂度;
- 创新性设计了特征聚合模块(FAM),有效提升网络的特征抽取能力和泛化性。
未来研究方向:
- 扩展WaveletFormerNet在更复杂与更大规模的真实场景浓雾数据集上的应用效果;
- 优化网络结构和训练策略,实现更高分辨率场景下的实时去雾;
进一步探索WaveletFormerNet在其他图像复原任务(如超分辨率、去噪)中的泛化能力。
5、Wavelet Tree Transformer: Multihead Attention With Frequency-Selective Representation and Interaction for Remote Sensing Object Detection
全文总结:本文提出了一种名为Wavelet Tree Transformer(WTHA-ViT)的多头注意力Transformer模型,以解决遥感图像目标检测任务中传统Transformer模型计算复杂度高以及频率特征选择不合理的问题。WTHA-ViT创新性地将小波树结构与Transformer多头注意力深度融合,通过小波树频率选择策略(WTS)实现特征下采样的同时,有效保留适合每个图像块的频率特征。此外,提出了通道提升方案多头注意力(CLSMHA)机制,进一步增强模型对于重要特征的关注能力。大量实验验证表明,该方法在DOTA-V1.0、HRSID遥感数据集以及DIOR和LEVIR迁移数据集上表现显著优于当前最优方法。
主要目的:
- 提出一种高效的频率选择Transformer模型,以降低遥感图像目标检测中Transformer的计算复杂性,并提高频率特征选择与融合的有效性和准确性。
结果:
- 在DOTA-V1.0与HRSID两个主流遥感图像目标检测数据集上取得了最先进(SOTA)的性能表现;
- 在DIOR与LEVIR迁移数据集上的实验结果进一步验证了模型的泛化性和迁移能力;
- 通过消融实验与可视化分析证实了所提出的小波树注意力结构(WTRM)与通道提升方案多头注意力(CLSMHA)的有效性,显著提高了模型对频率特征的选择能力与计算效率。
创新性:
- 首次提出了小波树Transformer结构(WTHA-ViT),实现了遥感图像中频率特征的智能化选择与高效表示;
- 创新性地提出小波树结构下的频率选择模块(WTRM),有效降低了模型的计算复杂度并提高了特征选择的准确性;
- 提出了通道提升方案多头注意力机制(CLSMHA),实现了对重要多头特征的有效关注,提高了频率特征融合效率与模型的表征能力。
未来研究方向:
- 探索Wavelet Tree Transformer在更大尺度、更复杂遥感图像上的表现;
- 进一步优化Wavelet Tree Transformer的计算效率,以适应更高分辨率的遥感实时检测任务;
- 扩展WTHA-ViT模型在其他遥感任务(如土地利用分类、遥感场景理解)中的泛化性研究。