Involution（附对Involution的思考）：港科大、字节跳动、北大提出“内卷”神经网络算子，在CV三大任务上提点明显

最新推荐文章于 2024-06-17 04:00:00 发布

原创

最新推荐文章于 2024-06-17 04:00:00 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

本文介绍了Involution，一种具有空间特异性和通道不变性的新型算子，挑战了CNN的传统特性。作者提出了RedNet，通过Involution在图像分类、检测、分割任务中展现了优势。与传统ResNet相比，它在参数量和计算效率上更具优势。尽管在性能上不如Transformer，但在NLP领域可能有潜在优势。

该原创内容首发于GaintPandaCV，转载请获得授权并标明出处

【写在前面】

在被Transformer结构刷榜之前，CNN一直都是CV任务的标配。卷积有两个基本性质，分别是空间不变性 (spatial-agnostic)和通道特异性 (channel-specific)。空间不变性使得卷积能够在所有位置共享参数，并充分利用视觉特征的“平移等变性”。通道特异性使得卷积能够充分建模通道之间的关系，提高模型的学习能力。

但是任何事物其实都是有两面性的，这两个性质在具有优点的同时，也同样存在缺点（缺点会在Motivation中进行具体分析）。因此，作者脑洞打开，将卷积的性质进行了反转，提出了一个新的算子——Involution，这个算子具有空间特异性和通道不变性。最终，基于Involution结构，作者提出了实例化网络结构RedNet，并在分类、检测、分割任务上提点明显。

（

这篇工作其实是作者在rethink卷积的性质之后提出的一个新的结构，虽然相比于最近几篇ViT的文章，这篇文章在性能上显得有些无力。但是相比于ResNet结构，这篇文章无论是在参数量，还是计算量、性能上都有非常大的优越性。

另外，这篇文章其实是加强了空间上的建模，减弱了通道上建模关系。个人感觉视觉特征上的通道信息还是比较有用的，而相比之下，文本的通道信息作用就没有那么大，而文本上的空间关系是更加有用的。所以，个人觉得，按照这个思路，Involution在NLP 领域说不定提点效果会更加明显，有兴趣的同学也可是在NLP任务中试试Involution的效果，效果应该会比TextCNN会好一些，说不定能达到跟Transformer差不多的结果。

）