1. WTConv介绍
1.1 摘要:近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受域。然而,这种方法很快就达到了一个上限和饱和的方式之前,实现了一个全球的接受领域。在这项工作中,我们证明,通过利用小波变换(WT),它是,事实上,有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。我们展示了ConvNeXt和MobileNetV2架构中的WTConv层在图像分类以及下游任务主干中的有效性,并展示了它产生的额外属性,如对图像损坏的鲁棒性和对形状的响应优于对纹理的响应。
官方论文地址: