旷视2021CVPR
摘要
提出了一个简单的,有效的,和一般的激活函数ACON,它学习是否需要激活神经元。发现Swish,最近流行的NAS搜索激活,可以解释为对ReLU的一个平滑近似。同样地,将更一般的Maxout方法近似ACON方法,并使Swish成为ACON的一个特殊情况。meta-ACON学习了优化非线性和线性之间的参数切换,并提供了一个新的设计空间。通过简单地改变激活函数,证明了它在小模型和高度优化的大模型上的有效性。在MobileNet-0.25和ResNet-152上,MmageNet前1的准确率分别提高了6.7%和1.8%)。此外,新ACON可以自然地转移到对象检测和语义分割上,表明ACON是各种任务中有效的替代选择。
论文主要思想
首先,作者认为一般的最大近似公式为:Smooth maximum
∑ ( x 1 , . . . , x n ) = ∑ i = 1 m x i e β x i ∑ i = 1 n e β x i \sum(x1,...,x_{n}) =\frac{\sum_{i=1}^m{x_{i}e^{\beta x_{i}}}}{\sum_{i=1}^n{e^{\beta x_{i}}}} ∑(x1,...,xn)=∑i=1neβxi∑i=1mx