文章目录
摘要
动态卷积通过学习n个静态卷积核的样本依赖注意力加权的线性混合,相比普通卷积显示出优越的性能。然而,现有的设计在参数效率方面存在不足:它们将卷积参数的数量增加了n倍。这和优化困难导致我们在动态卷积方面没有研究进展,使我们无法使用显著的大值n(例如,n>100而不是典型的设置n<10)来推动性能边界。针对上述问题,本文提出了一种更通用的动态卷积形式——KernelWarehouse,可以在保证参数效率的同时提高表示能力。其核心思想是从减少卷积核维度和显著增加卷积核数量的角度,重新定义动态卷积中的“卷积核”和“组合卷积核”这两个基本概念。KernelWarehouse通过巧妙的卷积核划分和仓库共享,增强了相同层和连续层之间的卷积参数依赖性。具体来说,KernelWarehouse首先将ConvNet中任意卷积层的静态卷积核逐个划分为m个具有相同维度的互不重叠的核单元(kernel cells),然后基于一个由n个核单元(例如n=108)组成的预定义的“仓库”(warehouse)计算每个核单元作为线性混合,这个仓库也被共享到多个相邻的卷积层中,最后将静态卷积核替换为其对应的m个混合结果的顺序组合,从