前不久,麻省理工学院发表的一篇名为《KAN:Kolmogorov-Arnold Networks》的论文在机器学习社区中引起了轰动,这个创新框架被称为 Kolmogorov-Arnold 网络 (KAN)。它为神经网络提供了一个全新的视角,并提出了一种可能的替代传统的多层感知机(MLP)神经网络新方案。
MLP是机器学习中近似非线性函数的默认模型,其表达能力得到了通用近似定理的保证。然而,MLP具有可解释性差,模型遗忘等缺点。
KAN则受到Kolmogorov-Arnold表示定理的启发。与 MLP 类似,KAN 实际上也具有全连接结构,区别在于,MLPs在节点(神经元)上放置固定的激活函数,而 KAN在边缘(权重)上放置的是可学习的激活函数。因此,KAN网络完全没有线性权重矩阵:每个权重参数都由一种可学习的一维样条函数替代。KAN网络的节点仅对输入信号进行求和,不进行任何非线性处理。
1. Kolmogorov-Arnold表示定理
KAN的主要理论依据是 Kolmogorov-Arnold 定理,中文叫做科尔莫戈洛夫-阿诺尔德表示定理。这个定理是由苏联数学家安德烈·科尔莫戈洛夫(Andrey Kolmogorov)首先提出,并由他的学生弗拉基米尔·阿诺尔德(Vladimir Arnold)在1957年进一步发展。定理最初的动机是探讨多元函数可以如何被一组更简单的函数表示。Vladimir Arnold 和 Andrey Kolmogorov证明了,如果 f 是在有界域上的多变量连续函数,则 f 可以被写成单变量连续函数加法二元运算的有限组合。更具体地说,对于一个光滑的f:[0, 1]→R,
其中,。从某种意义上说,这表明了唯一真正的多变量函数是加法的,因为