KAN: Kolmogorov–Arnold Networks——科莫哥洛夫-阿诺德网络

这篇文章提出了科莫哥洛夫-阿诺德网络(KANs),作为一种替代传统多层感知器(MLPs)的新型神经网络架构。KANs 的灵感来源于科莫哥洛夫-阿诺德表示定理,该定理表明任何多元连续函数都可以表示为有限个单变量函数的组合。与 MLPs 不同,KANs 在边(权重)上使用可学习的激活函数,而不是在节点上使用固定的激活函数。KANs 的每个权重参数都被一个参数化为样条的单变量函数取代,这使得 KANs 在准确性可解释性方面优于 MLPs。

主要内容总结:

  1. KANs 的优势

    • 准确性:KANs 在小规模 AI + 科学任务中表现出比 MLPs 更高的准确性,尤其是在函数拟合和偏微分方程(PDE)求解方面。

    • 可解释性:KANs 可以通过可视化激活函数来揭示数据的组合结构,帮助科学家发现数学和物理定律。

    • 神经缩放定律:KANs 具有比 MLPs 更快的神经缩放定律,能够在高维数据中打破维度诅咒。

  2. KANs 的架构

    • KANs 的激活函数是可学习的样条函数,放置在边上,而不是节点上。

    • KANs 可以通过网格扩展技术逐步提高准确性,而不需要从头训练更大的模型。

  3. 应用示例

    • 数学:KANs 在纽结理论中帮助重新发现了签名与经向距离和纵向距离之间的关系。

    • 物理:KANs 在凝聚态物理中用于提取准周期紧束缚模型的迁移率边,展示了其在科学发现中的潜力。

  4. 未来方向

    • 数学基础:进一步研究 KANs 的数学性质,特别是更深层 KANs 的表达能力。

    • 算法优化:提高 KANs 的训练效率,探索混合 KANs 和 MLPs 的架构。

    • 应用扩展:将 KANs 应用于更复杂的科学和机器学习任务,如 Navier-Stokes 方程求解和语言建模。

KANs 是一种有前途的神经网络架构,具有更高的准确性和可解释性,特别适合小规模的 AI + 科学任务。尽管 KANs 的训练速度较慢,但其在科学发现和函数逼近方面的潜力使其成为 MLPs 的有力替代品。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里,如下所示:

摘要

受科莫哥洛夫-阿诺德表示定理的启发,我们提出了科莫哥洛夫-阿诺德网络(KANs)作为多层感知器(MLPs)的有前途的替代方案。虽然MLPs在节点(“神经元”)上具有固定的激活函数,但KANs在边(“权重”)上具有可学习的激活函数。KANs完全没有线性权重——每个权重参数都被一个参数化为样条的单变量函数所取代。我们展示了这种看似简单的变化使KANs在小规模AI+科学任务中的准确性和可解释性方面优于MLPs。对于准确性,较小的KANs可以在函数拟合任务中实现与较大MLPs相当或更好的准确性。从理论上和经验上,KANs具有比MLPs更快的神经缩放定律。对于可解释性,KANs可以直观地可视化,并且可以轻松地与人类用户互动。通过数学和物理中的两个例子,KANs被证明是有用的“合作者”,帮助科学家(重新)发现数学和物理定律。总之,KANs是MLPs的有前途的替代方案,为今天严重依赖MLPs的深度学习模型提供了进一步改进的机会。

1 引言

多层感知器(MLPs)[1, 2, 3],也称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLPs的重要性不容忽视,因为它们是机器学习中用于近似非线性函数的默认模型,其表达能力由通用逼近定理[3]保证。然而,MLPs是我们能构建的最佳非线性回归器吗?尽管MLPs被广泛使用,但它们有显著的缺点。例如,在变压器[4]中,MLPs消耗了几乎所有非嵌入参数,并且通常比注意力层更不具可解释性(相对而言),除非使用后分析工具[5]。

我们提出了一种有前途的MLPs替代方案,称为科莫哥洛夫-阿诺德网络(KANs)。MLPs受通用逼近定理的启发,而KANs则受科莫哥洛夫-阿诺德表示定理[6, 7, 8]的启发。与MLPs一样,KANs具有全连接结构。然而,MLPs在节点(“神经元”)上放置固定的激活函数,而KANs在边(“权重”)上放置可学习的激活函数,如图0.1所示。因此,KANs完全没有线性权重矩阵:相反,每个权重参数被一个参数化为样条的可学习1D函数取代。KANs的节点只是简单地对传入信号求和,而不应用任何非线性。有人可能会担心KANs的计算成本过高,因为每个MLP的权重参数都变成了KAN的样条函数。幸运的是,KANs通常允许比MLPs小得多的计算图。

毫不奇怪,使用科莫哥洛夫-阿诺德表示定理构建神经网络的可能性已经被研究过[9, 10, 11, 12, 13, 14, 15, 16]。然而,大多数工作都停留在原始的深度-2宽度-(2n+1)表示上,并且许多工作没有机会利用更现代的技术(例如反向传播)来训练网络。在[12]中,研究了深度-2宽度-(2n+1)表示,并观察到在函数具有组合结构的情况下,维度诅咒被打破。我们的贡献在于将原始的科莫哥洛夫-阿诺德表示推广到任意宽度和深度,使其在今天的深度学习世界中焕发新生,并通过大量实验突出其在AI+科学中的潜力,因为它具有准确性和可解释性。

尽管KANs具有优雅的数学解释,但它们不过是样条和MLPs的组合,利用了它们各自的优势并避免了各自的弱点。样条在低维函数上非常准确,易于局部调整,并且能够在不同分辨率之间切换。然而,样条存在严重的维度诅咒(COD)问题,因为它们无法利用组合结构。另一方面,MLPs由于特征学习而较少受到COD的影响,但在低维度上不如样条准确,因为它们无法优化单变量函数。MLPs使用ReLU-k作为激活函数与样条之间的联系已经在[17, 18]中建立。为了准确学习一个函数,模型不仅应该学习组合结构(外部自由度),还应该很好地近似单变量函数(内部自由度)。KANs正是这样的模型,因为它们在外部类似于MLPs,在内部类似于样条。因此,KANs不仅可以学习特征(得益于其与MLPs的外部相似性),还可以将这些学习到的特征优化到极高的准确性(得益于其与样条的内部相似性)。例如,给定一个高维函数

样条会因COD问题在大N时失败;MLPs可能学习到广义加性结构,但它们在使用ReLU激活函数时非常低效地近似指数和正弦函数。相比之下,KANs可以很好地学习组合结构和单变量函数,因此在很大程度上优于MLPs(见图1)。

在本文中,我们将通过大量数值实验展示KANs在小规模AI+科学任务中相对于MLPs的准确性和可解释性改进。论文的组织结构如图1所示。在第2节中,我们介绍了KAN架构及其数学基础,介绍了使KANs可解释的网络简化技术,并介绍了使KANs更准确的网格扩展技术。在第3节中,我们展示了KANs在数据拟合方面比MLPs更准确:当数据中存在组合结构时,KANs可以打破维度诅咒,实现比MLPs更好的缩放定律。我们还通过泊松方程的一个简单例子展示了KANs在PDE求解中的潜力。在第4节中,我们展示了KANs的可解释性,并可以用于科学发现。我们使用数学(纽结理论)和物理(安德森局域化)中的两个例子来证明KANs可以作为科学家(重新)发现数学和物理定律的有用“合作者”。第5节总结了相关工作。在第6节中,我们通过讨论广泛的影响和未来的方向来总结。

2 科莫哥洛夫-阿诺德网络(KANs)

多层感知器(MLPs)受通用逼近定理的启发。我们则关注科莫哥洛夫-阿诺德表示定理,它可以通过一种称为科莫哥洛夫-阿诺德网络(KANs)的新型神经网络实现。我们在第2.1节回顾了科莫哥洛夫-阿诺德定理,以启发第2.2节中科莫哥洛夫-阿诺德网络的设计。在第2.3节中,我们提供了KANs表达能力及其神经缩放定律的理论保证,并将其与文献中的现有逼近和泛化理论联系起来。在第2.4节中,我们提出了一种网格扩展技术,使KANs越来越准确。在第2.5节中,我们提出了简化技术,使KANs更具可解释性。

科莫哥洛夫-阿诺德表示定理

弗拉基米尔·阿诺德和安德烈·科莫哥洛夫证明了如果f是有界域上的多元连续函数,那么f可以写成有限个单变量连续函数和加法二元运算的组合。更具体地说,对于光滑的f:[0,1]^n→R,

然而,我们对科莫哥洛夫-阿诺德定理在机器学习中的实用性持更乐观的态度。首先,我们不需要坚持原始的Eq. (1),它只有两层非线性和隐藏层中的少量项(2n+1):我们将网络推广到任意宽度和深度。其次,科学和日常生活中的大多数函数通常是光滑的,并且具有稀疏的组合结构,这可能促进光滑的科莫哥洛夫-阿诺德表示。这里的哲学接近于物理学家的思维方式,他们通常更关心典型情况而不是最坏情况。毕竟,我们的物理世界和机器学习任务必须具有结构,才能使物理学和机器学习有用或可推广[21]。

KAN架构

如图2所示,左:通过网络流动的激活符号。右:激活函数被参数化为B样条,允许在粗粒度和细粒度网格之间切换。

如前所述,这样的网络在实践中过于简单,无法用光滑样条任意逼近任何函数!因此,我们将KAN推广为更宽和更深。目前尚不清楚如何使KANs更深,因为科莫哥洛夫-阿诺德表示对应于两层KANs。据我们所知,目前还没有与更深KANs对应的“广义”版本定理。

参数计数。 为简单起见,我们假设一个网络

KAN的逼近能力和缩放定律

回想一下,在Eq. (2.1)中,2层宽度-(2n+1)表示可能是不光滑的。然而,更深的表示可能带来更光滑的激活函数的优势。例如,4变量函数

为了提高准确性:网格扩展

原则上,样条可以通过使网格任意细粒度来任意准确地逼近目标函数。KANs继承了这一良好特性。相比之下,MLPs没有“细粒度”的概念。诚然,增加MLPs的宽度和深度可以提高性能(“神经缩放定律”)。然而,这些神经缩放定律是缓慢的(在上一节中讨论)。它们也很昂贵,因为不同大小的模型是独立训练的。相比之下,对于KANs,可以首先训练一个具有较少参数的KAN,然后通过简单地使其样条网格更细来扩展到具有更多参数的KAN,而无需从头开始重新训练更大的模型。

外部与内部自由度

KANs强调的一个新概念是外部自由度与内部自由度(参数)之间的区别。节点如何连接的计算图表示外部自由度(“dofs”),而激活函数内部的网格点是内部自由度。KANs受益于它们同时具有外部dofs和内部dofs。外部dofs(MLPs也有,但样条没有)负责学习多个变量的组合结构。内部dofs(样条也有,但MLPs没有)负责学习单变量函数。

为了提高可解释性:简化KANs并使其具有交互性

2.5.1 简化技术

1. 稀疏化。 对于MLPs,线性权重的L1正则化用于促进稀疏性。KANs可以适应这一高级思想,但需要进行两个修改:

  1. (1)KANs中没有线性“权重”。线性权重被可学习的激活函数取代,因此我们应该定义这些激活函数的L1范数。

  2. (2)我们发现L1不足以稀疏化KANs;相反,需要额外的熵正则化(详见附录C)。

除了这些技术外,我们还提供了额外的工具,允许用户对KANs进行更细粒度的控制,列在附录A中。

2.5.2 一个玩具示例:人类如何与KANs交互

上面我们提出了许多KANs的简化技术。我们可以将这些简化选择视为可以点击的按钮。与这些按钮交互的用户可以决定下一步点击哪个按钮以使KANs更具可解释性。我们使用下面的示例来展示用户如何与KAN交互以获得最大可解释性的结果。

让我们再次考虑回归任务

步骤1:使用稀疏化进行训练。 从一个全连接的[2,5,1]KAN开始,使用稀疏化正则化进行训练可以使其相当稀疏。隐藏层中的5个神经元中有4个似乎无用,因此我们希望将它们剪枝掉。

步骤2:剪枝。 自动剪枝会丢弃所有隐藏神经元,除了最后一个,留下一个[2,1,1]KAN。激活函数似乎是已知的符号函数。

步骤3:设置符号函数。 假设用户可以通过观察KAN图正确猜测这些符号公式,他们可以设置

(23)

如果用户没有领域知识或不知道这些激活函数可能是哪些符号函数,我们提供了一个函数suggest_symbolic来建议符号候选。

步骤4:进一步训练。 在符号化网络中的所有激活函数后,剩下的唯一参数是仿射参数。我们继续训练这些仿射参数,当我们看到损失下降到机器精度时,我们知道我们已经找到了正确的符号表达式。

步骤5:输出符号公式。 使用Sympy计算输出节点的符号公式。用户得到,这是真正的答案(我们只显示了π的两个小数位)。

备注:为什么不使用符号回归(SR)? 对于这个示例,使用符号回归是合理的。然而,符号回归方法通常很脆弱且难以调试。它们要么在最后返回成功,要么返回失败,而不输出可解释的中间结果。相比之下,KANs在函数空间中进行连续搜索(使用梯度下降),因此它们的结果更连续,因此更稳健。此外,由于KANs的透明度,用户对KANs有更多的控制。我们可视化KANs的方式就像向用户展示KANs的“大脑”,用户可以对其进行“手术”(调试)。这种控制水平通常对SR不可用。我们将在第4.4节中展示这方面的示例。更一般地,当目标函数不是符号函数时,符号回归将失败,但KANs仍然可以提供有意义的东西。例如,一个特殊函数(例如贝塞尔函数)不可能被SR学习,除非它事先提供,但KANs可以使用样条数值逼近它(见图4.1 (d))。

3 KANs是准确的

在本节中,我们展示了KANs在各种任务(回归和PDE求解)中比MLPs更有效地表示函数。在比较两种模型家族时,公平地比较它们的准确性(损失)和复杂性(参数数量)。我们将展示KANs显示出比MLPs更有利的帕累托前沿。此外,在第3.5节中,我们展示了KANs可以自然地用于持续学习而不会出现灾难性遗忘。

玩具数据集

特殊函数

上述结果的一个警告是我们假设我们知道“真实”的KAN形状。在实践中,我们不知道KA表示的存在。即使我们承诺存在这样的KA表示,我们也不知道KAN形状的先验知识。多于一个变量的特殊函数就是这种情况,因为如果多元特殊函数(例如贝塞尔函数f(ν,x)=Jν(x))可以写成KA表示,仅涉及单变量函数和求和,那将是(数学上)令人惊讶的。我们展示以下内容:

  1. (1)找到特殊函数的(近似)紧凑KA表示是可能的,从科莫哥洛夫-阿诺德表示的角度揭示特殊函数的新数学性质。

  2. (2)KANs在表示特殊函数方面比MLPs更高效和准确。

对于每个数据集和每个模型家族(KANs或MLPs),我们绘制帕累托前沿5,在(参数数量,RMSE)平面上,如图3.2所示。KANs的表现始终优于MLPs,即KANs可以在相同数量的参数下实现比MLPs更低的训练/测试损失。此外,我们报告了我们自动发现的特殊函数的紧凑KAN形状在表1中。一方面,解释这些紧凑表示的数学意义很有趣(我们在附录F中的图F.1和F.2中包含了KAN的图示)。另一方面,这些紧凑表示意味着将高维查找表分解为几个1D查找表的可能性,这可以潜在地节省大量内存,并且在推理时执行几次加法的开销(几乎可以忽略不计)。

脚注5:帕累托前沿定义为在简单性和准确性方面没有其他拟合更优的拟合。

费曼数据集

第3.1节中的设置是我们明确知道“真实”KAN形状的情况。第3.2节中的设置是我们明确知道“真实”KAN形状的情况。这部分研究了一个介于两者之间的设置:

图3.2:拟合特殊函数。我们展示了KANs和MLPs在模型参数数量和RMSE损失平面上的帕累托前沿。在所有特殊函数中,KANs始终具有比MLPs更好的帕累托前沿。这些特殊函数的定义在表1中。

给定数据集的结构,我们可以手动构建KANs,但我们不确定它们是否最优。在这个制度中,比较手动构建的KANs和通过剪枝自动发现的KANs(第2.5.1节中的技术)是很有趣的。

求解偏微分方程

持续学习

灾难性遗忘是当前机器学习中的一个严重问题[40]。当人类掌握一项任务并切换到另一项任务时,他们不会忘记如何执行第一项任务。不幸的是,神经网络并非如此。当神经网络在任务1上训练然后转移到任务2上训练时,网络很快就会忘记如何执行任务1。人工神经网络和人类大脑之间的一个关键区别是,人类大脑在空间上具有功能上不同的模块。当学习新任务时,结构重组只发生在负责相关技能的局部区域[41, 42],而其他区域保持不变。大多数人工神经网络,包括MLPs,没有这种局部性概念,这可能是灾难性遗忘的原因。

我们展示了KANs具有局部可塑性,并且可以通过利用样条的局部性来避免灾难性遗忘。这个想法很简单:由于样条基是局部的,一个样本只会影响附近的几个样条系数,而远处的系数保持不变(这是可取的,因为远处的区域可能已经存储了我们想要保留的信息)。相比之下,由于MLPs通常使用全局激活函数,例如ReLU/Tanh/SiLU等,任何局部变化都可能不可控地传播到远处区域,破坏存储在那里的信息。

我们使用一个玩具示例来验证这一直觉。1D回归任务由5个高斯峰组成。每个峰周围的数据依次(而不是一次性)呈现给KANs和MLPs,如图3.4顶部所示。KAN和MLP在每个训练阶段后的预测显示在中间和底部行。正如预期的那样,KAN只重塑当前阶段存在数据的区域,而之前的区域保持不变。相比之下,MLPs在看到新数据样本后重塑整个区域,导致灾难性遗忘。

在这里,我们只是在一个极其简单的示例上展示了我们的初步结果,以展示如何可能利用KANs中的局部性(得益于样条参数化)来减少灾难性遗忘。然而,我们的方法是否可以推广到更现实的设置,特别是在高维情况下,如何定义“局部性”尚不清楚。在未来的工作中,我们还希望研究我们的方法如何与SOTA持续学习方法[43, 44]连接和结合。

4 KANs是可解释的

在本节中,我们展示了KANs由于我们在第2.5节中开发的技术而具有可解释性和交互性。我们不仅希望在合成任务(第4.1和4.2节)上测试KANs的使用,还希望在现实生活中的科学研究中展示KANs的使用。我们展示了KANs可以(重新)发现纽结理论(第4.3节)和凝聚态物理中的相变边界(第4.4节)中高度非平凡的关系。KANs由于其准确性(上一节)和可解释性(本节)可能成为AI+科学的基础模型。

监督玩具数据集

我们首先检查KANs揭示符号公式中组合结构的能力。六个示例如下,其KANs在图4.1中可视化。KANs能够揭示这些公式中存在的组合结构,并学习正确的单变量函数。

无监督玩具数据集

应用于数学:纽结理论

鉴于纽结在数学中的基本性质及其应用的重要性,研究ML是否可以带来新的结果是很有趣的。例如,在[46]中,强化学习被用于确定某些纽结的带状性,这排除了许多潜在的平滑4d庞加莱猜想的反例。

监督学习 在[45]中,监督学习和人类领域专家被用于得出一个关于代数和几何纽结不变量的新定理。在这种情况下,梯度显著性确定了监督问题的关键不变量,这引导领域专家做出一个猜想,随后被细化和证明。我们研究KAN是否可以在相同的问题上实现良好的可解释结果,该问题预测纽结的签名。他们研究纽结理论数据集的主要结果是:

我们展示KANs不仅可以用更小的网络和更多的自动化重新发现这些结果,而且还提出了一些有趣的新结果和见解。

为了研究(1),我们将17个纽结不变量作为输入,签名作为输出。类似于[45]中的设置,签名(偶

到目前为止,我们已经重新发现了 [45] 中的主要结果。值得注意的是,KANs 使这一发现非常直观和方便。与使用特征归因方法(这些方法很好)不同,人们可以简单地通过观察 KANs 的可视化来获得见解。此外,自动符号回归也使符号公式的发现变得更加容易。

在下一部分中,我们提出了一个新的“AI for Math”范式,这在 Deepmind 的论文中没有涉及,我们旨在使用 KANs 的无监督学习模式来发现纽结不变量中更多的关系(除了签名)。

有趣的是,KANs 的无监督模式可以重新发现几个已知的数学关系。好消息是,KANs 发现的结果可能是可靠的;坏消息是,我们还没有发现任何新的东西。值得注意的是,我们选择了一个浅层的 KAN 以便于简单可视化,但更深的 KANs 可能会发现更多的关系(如果存在)。我们希望在未来的工作中研究如何使用更深的 KANs 发现更复杂的关系。

图 4.4:纽结数据集,无监督模式。通过 KANs,我们重新发现了纽结数据集中的三个数学关系。

应用于物理:安德森局域化

安德森局域化是量子系统中无序导致电子波函数局域化的基本现象,导致所有传输停止 [48]。在一维和二维中,标度论证表明,对于任意小的随机无序,所有电子本征态都是指数局域化的 [49; 50]。相比之下,在三维中,临界能量形成一个相边界,将扩展态与局域态分开,称为迁移率边。理解这些迁移率边对于解释各种基本现象至关重要,例如固体中的金属-绝缘体转变 [51],以及光子器件中的局域化效应 [52; 53; 54; 55; 56]。因此,有必要开发具有迁移率边的微观模型,以便进行详细研究。开发这样的模型在低维中通常更实际,因为引入准周期性而不是随机无序也可以导致迁移率边,将局域相和扩展相分开。此外,实验实现解析迁移率边可以帮助解决相互作用系统中局域化的争论 [57; 58]。事实上,最近的一些研究集中在识别这样的模型并推导其迁移率边的精确解析表达式 [59; 60; 61; 62; 63; 64; 65]。

在这里,我们将 KANs 应用于从准周期紧束缚模型生成的数值数据,以提取其迁移率边。特别是,我们研究了三类模型:马赛克模型(MM)[63]、广义 Aubry-Andre 模型(GAAM)[62] 和修正的 Aubry-Andre 模型(MAAM)[60]。对于 MM,我们测试了 KAN 准确提取迁移率边作为能量的 1D 函数的能力。对于 GAAM,我们发现从 KAN 获得的公式与真实情况非常接近。对于更复杂的 MAAM,我们展示了该框架的符号可解释性的另一个示例。用户可以通过“协作”简化从 KANs 获得的复杂表达式(以及相应的符号公式),其中人类生成假设以获得更好的匹配(例如,假设某些激活函数的形式),之后 KANs 可以快速进行假设检验。

5 相关工作

科莫哥洛夫-阿诺德定理与神经网络。 科莫哥洛夫-阿诺德定理(KAT)与神经网络之间的联系在文献中并不新鲜 [66, 67, 9, 10, 11, 12, 13, 14, 68, 69],但内部函数的病态行为使得 KAT 在实践中显得没有前途 [66]。大多数这些先前的工作都停留在原始的 2 层宽度-(2n+1)网络上,这些网络表达能力有限,许多工作甚至早于反向传播。因此,大多数研究都是建立在理论上的,实验非常有限或仅限于人工玩具实验。更广泛地说,KANs 也与广义加性模型(GAMs)[70]、图神经网络 [71] 和核机器 [72] 有些相关。这些联系是引人入胜且基础的,但可能超出了当前论文的范围。我们的贡献在于将科莫哥洛夫网络推广到任意宽度和深度,使其在当今的深度学习潮流中焕发新生,并强调其作为 AI + 科学基础模型的潜在作用。

神经缩放定律(NSLs)。 NSLs 是测试损失随模型大小、数据、计算等呈幂律行为的现象 [73, 74, 75, 76, 24, 77, 78, 79]。NSLs 的起源仍然神秘,但竞争理论包括内在维度 [73]、任务量化 [78]、资源理论 [79]、随机特征 [77]、组合稀疏性 [66] 和最大元数 [25]。本文通过展示高维函数如果具有光滑的科莫哥洛夫-阿诺德表示,则可以像 1D 函数一样缩放(这是人们可以期望的最佳界),为神经缩放定律带来了新的乐观情绪。我们在实验中展示了这种快速神经缩放定律可以在合成数据集上实现,但未来的研究需要解决这种快速缩放是否可以在更复杂的任务(例如语言建模)中实现的问题:KA 表示是否存在于一般任务中?如果存在,我们的训练在实践中是否找到了这些表示?

机械可解释性(MI)。 MI 是一个新兴领域,旨在机械地理解神经网络的内部工作原理 [80, 81, 82, 83, 84, 85, 86, 87, 5]。MI 研究大致可以分为被动和主动 MI 研究。大多数 MI 研究是被动的,专注于理解使用标准方法训练的现有神经网络。主动 MI 研究试图通过设计本质上可解释的架构或开发明确鼓励可解释性的训练方法来实现可解释性 [86, 87]。我们的工作属于第二类,其中模型和训练方法在设计上是可解释的。

可学习的激活函数。 神经网络中可学习的激活函数的想法在机器学习中并不新鲜。可训练的激活函数以可微分的方式学习 [88, 14, 89, 90] 或以离散方式搜索 [91]。激活函数被参数化为多项式 [88]、样条 [14, 92, 93]、sigmoid 线性单元 [89] 或神经网络 [90]。KANs 使用 B 样条来参数化其激活函数。我们还展示了可学习激活网络(LANs)的初步结果,其性质介于 KANs 和 MLPs 之间,其结果被推迟到附录 B,以便在正文中专注于 KANs。

符号回归。 有许多基于遗传算法的现成符号回归方法(Eureka [94]、GPLearn [95]、PySR [96])、基于神经网络的方法(EQL [97]、OccamNet [98])、物理启发的方法(AI Feynman [36, 37])和基于强化学习的方法 [99]。KANs 与基于神经网络的方法最相似,但与之前的工作不同,我们的激活函数在符号捕捉之前是连续学习的,而不是手动固定的 [94, 98]。

物理信息神经网络(PINNs)和物理信息神经算子(PINOs)。 在第 3.4 节中,我们展示了 KANs 可以取代使用 MLPs 施加 PDE 损失的范式来求解 PDEs。我们参考 Deep Ritz 方法 [100]、PINNs [38, 39, 101] 用于 PDE 求解,以及傅里叶神经算子 [102]、PINOs [103, 104, 105]、DeepONet [106] 用于学习解映射的算子学习方法。在所有上述网络中,用 KANs 取代 MLPs 具有潜力。

AI 用于数学。 正如我们在第 4.3 节中看到的,AI 最近被应用于纽结理论中的几个问题,包括检测纽结是否为无结 [107, 108] 或带状纽结 [46],以及预测纽结不变量并揭示它们之间的关系 [109, 110, 111, 45]。有关数据科学在数学和理论物理数据集中的应用的总结,请参见 [112, 113],以及如何从这些领域的 ML 技术中获得严格结果的想法,请参见 [114]。

6 讨论

在本节中,我们从数学基础、算法和应用的角度讨论 KANs 的局限性和未来方向。

数学方面: 尽管我们已经对 KANs 进行了初步的数学分析(定理 2.1),但我们对它们的数学理解仍然非常有限。科莫哥洛夫-阿诺德表示定理在数学中已经得到了彻底的研究,但该定理对应于形状为 [n,2n+1,1] 的 KANs,这是 KANs 的一个非常受限的子类。我们在更深层 KANs 上的经验成功是否暗示了数学中的某些基本问题?一个吸引人的广义科莫哥洛夫-阿诺德定理可以定义“更深”的科莫哥洛夫-阿诺德表示,超越深度-2 的组合,并可能将激活函数的光滑性与深度联系起来。假设存在一些函数,它们不能在原始的(深度-2)科莫哥洛夫-阿诺德表示中光滑表示,但可能在深度-3 或更深层中光滑表示。我们能否使用这种“科莫哥洛夫-阿诺德深度”概念来表征函数类?

算法方面: 我们讨论以下几点:

  1. (1) 准确性。架构设计和训练中的多种选择尚未完全研究,因此替代方案可能会进一步提高准确性。例如,样条激活函数可能会被径向基函数或其他局部核取代。可以使用自适应网格策略。

  2. (2) 效率。KANs 运行缓慢的一个主要原因是不同的激活函数无法利用批量计算(大量数据通过相同的函数)。实际上,可以通过将激活函数分组为多个组(“多头”)来在激活函数全部相同(MLPs)和全部不同(KANs)之间进行插值,其中组内的成员共享相同的激活函数。

  3. (3) KANs 和 MLPs 的混合。KANs 与 MLPs 有两个主要区别:1. (i) 激活函数在边上而不是在节点上,2. (ii) 激活函数是可学习的而不是固定的。哪个变化更能解释 KANs 的优势?我们在附录 B 中展示了我们的初步结果,其中我们研究了一个具有 (ii) 的模型,即激活函数是可学习的(像 KANs),但没有 (i),即激活函数在节点上(像 MLPs)。此外,还可以构建另一个具有固定激活(像 MLPs)但在边上(像 KANs)的模型。

  4. (4) 自适应性。由于样条基函数的固有局部性,我们可以在 KANs 的设计和训练中引入自适应性,以提高准确性和效率:参见多级训练的想法,如多重网格方法 [115; 116],或依赖于域的基函数,如多尺度方法 [117]。

应用方面: 我们已经展示了一些初步证据,表明 KANs 在科学相关任务中比 MLPs 更有效,例如拟合物理方程和 PDE 求解。我们希望将 KANs 应用于求解 Navier-Stokes 方程、密度泛函理论或任何可以表述为回归或 PDE 求解的任务。我们还希望将 KANs 应用于机器学习相关任务,这将需要将 KANs 集成到当前架构中,例如 transformers——可以提出“kansformers”,用 KANs 取代 transformers 中的 MLPs。

KAN 作为 AI + 科学的“语言模型” 大型语言模型之所以如此具有变革性,是因为它们对任何能说自然语言的人都有用。科学的语言是函数。KANs 由可解释的函数组成,因此当人类用户凝视 KAN 时,就像用函数的语言与它交流。这一段旨在推广 AI-科学家-协作范式,而不是我们特定的工具 KANs。就像人们使用不同的语言交流一样,我们预计未来 KANs 将只是 AI + 科学的语言之一,尽管 KANs 将是使 AI 和人类能够交流的非常早期的语言之一。然而,KANs 使 AI-科学家-协作范式变得前所未有的简单和方便,这促使我们重新思考我们想要如何接近 AI + 科学的范式:我们是想要 AI 科学家,还是想要帮助科学家的 AI?完全自动化的 AI 科学家的内在困难在于,很难将人类偏好量化,这将把人类偏好编码到 AI 目标中。事实上,不同领域的科学家可能对哪些函数简单或可解释有不同的看法。因此,科学家们更希望拥有一个能够说科学语言(函数)并能够方便地与个别科学家(们)的归纳偏置交互以适应特定科学领域的 AI。

最终结论:我应该使用 KANs 还是 MLPs?

目前,KANs 的最大瓶颈在于其训练速度慢。在相同数量的参数下,KANs 通常比 MLPs 慢 10 倍。我们应该诚实地承认,我们并没有努力优化 KANs 的效率,因此我们认为 KANs 的慢训练更多是一个可以在未来改进的工程问题,而不是一个根本的限制。如果一个人想要快速训练模型,应该使用 MLPs。在其他情况下,KANs 应该与 MLPs 相当或更好,这使得它们值得尝试。图 6.1 中的决策树可以帮助决定何时使用 KAN。简而言之,如果你关心可解释性和/或准确性,并且慢训练不是主要问题,我们建议尝试 KANs,至少对于小规模的 AI + 科学问题。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值