Abstract
Kolmogorov-Arnold网络(KAN) [46] 最近被提出为许多深度学习模型的主干结构,多层感知机(MLP)的潜在替代方案。KAN在许多科学任务中取得了成功,其经验效率和准确性在函数回归、PDE求解和许多其他科学问题中得到了验证。
在这篇文章中,我们重新审视了KAN和MLP的比较,但从理论的角度出发。我们一方面比较了KAN和MLP的表示和近似能力。我们证明了MLP可以使用与其大小相似的KAN来表示。这表明KAN的近似和表示能力至少与MLP相当。另一方面,我们也表明KAN可以使用MLP来表示,但在这种表示中,参数的数量会以KAN网格大小为比例增加。这表明对于某些函数来说,大网格大小的KAN可能比MLP更高效。
另一方面,从学习和优化的角度出发,我们研究了KAN与MLP的频谱偏差。我们证明了KAN与MLP相比,对低频率有更少的偏差。我们强调了KAN特有的多级学习特性,即样条网格扩展,改善了高频率分量的学习过程。我们对不同深度、宽度和网格大小的KAN进行了详细比较,对于如何选择超参数提供了参考。
我们的贡献。我们这篇论文的目标是 从理论上比较KAN架构和常用的MLP架构。我们的具体贡献如下:
我们比较了KAN和MLP的近似和表示能力,并且证明了KAN至少与MLP一样表达式丰富。基于这一结果,我们得到了KAN在Sobolev空间上的近似速率。
我们从理论上分析了使用单层KAN优化最小二乘损失的梯度下降法。基于这一分析,我们论证说,KAN(与MLP不同),在很大程度上不受频谱偏差的影响。这意味着KAN在学习不同频率的函数时表现更加均匀,而不是像MLP那样更容易学习低频率的函数
我们提供了数值实验,证明了KAN在各种问题上表现出了比MLP更少的频谱偏差。这证明了我们的理论,并且也提供了一个解释,指导了解为什么KAN在科学计算中的问题上取得了成功。我们的实验结果表明,KAN更容易学习高频率的函数,并且能更好的捕捉函数的细节,这是科学计算中的一个关键优势。