YOLOv11改进 | Conv篇 | YOLOv11引入24年大感受野的小波卷积WTConv

1. WTConv介绍

1.1  摘要:近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受域。然而,这种方法很快就达到了一个上限和饱和的方式之前,实现了一个全球的接受领域。在这项工作中,我们证明,通过利用小波变换(WT),它是,事实上,有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。我们展示了ConvNeXt和MobileNetV2架构中的WTConv层在图像分类以及下游任务主干中的有效性,并展示了它产生的额外属性,如对图像损坏的鲁棒性和对形状的响应优于对纹理的响应。

官方论文地址:

### 小波卷积 (WTConv) 的算法原理 小波变换作为一种多分辨率分析工具,在信号处理领域有着广泛应用。当应用于图像数据时,可以有效捕捉不同尺度下的特征[^1]。具体来说,WTConv 利用了离散小波变换(DWT)来扩展传统卷积操作的感受野范围,从而使得每一层都能获取更范围内的上下文信息。 对于 WTConv 来说,其实现过程主要包括两个阶段: 1. **前向传播**:输入图片先经过一次或多级 DWT 处理得到低频子带以及高频细节分量;接着针对每个频率通道分别执行标准 CNN 卷积运算; 2. **反向传播**:损失函数梯度沿原路径回传至各层权重更新之前需逆向重建原始尺寸小的误差图谱用于指导参数调整[^2]。 这种设计不仅继承了经典CNN架构的优点,而且借助于小波分解特性增强了模型提取复杂模式的能力。 ### 应用场景 WTConv 已经被证明可以在多种计算机视觉任务上取得良好表现,尤其是在那些需要较感受野的任务中更为突出。例如目标检测方面,《感受野小波卷积》一文中提到使用 WTConv 替换 YOLOv8 中的标准 Conv 层后可以获得更好的识别精度提升[^3]。另外,在语义分割任务里也观察到了 mIoU 指标的显著改善——相较于基线方法提升了约 0.3%-0.6% 不等[^4]。 ### 实现方式与深度学习框架支持 目前主流的深度学习平台如 PyTorch 和 TensorFlow 均提供了相应接口或者第三方库可以直接调用来构建基于 WTConv神经网络结构。特别是 Python 社区活跃贡献者们已经开源了不少高质量项目实现了上述功能,比如 `torch_wavelets` 或者 `pywt` 等包可以帮助开发者快速搭建实验环境并开展研究工作。 ```python import torch.nn as nn from pytorch_wavelets import DWTForward, DWTInverse class WTConv(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=3, stride=1, padding=1): super(WTConv, self).__init__() self.dwt = DWTForward(J=1, mode='zero', wave='db1') self.conv_low = nn.Conv2d(in_channels=in_channels * 4, out_channels=out_channels // 4, kernel_size=kernel_size, stride=stride, padding=padding) ... def forward(self, x): yl, yh = self.dwt(x) ... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值