干掉MLP！一次更公平的较量 (大部分情况KAN不如MLP)

本文链接：https://blog.youkuaiyun.com/AIzhijie001/article/details/143851846

2024深度学习发论文&模型涨点之——KANvsMLP

KAN（Kolmogorov-Arnold Networks）是一种新型的神经网络架构，它基于Kolmogorov-Arnold表示定理，提供了一种与传统多层感知器（MLP）不同的网络设计。KAN的核心思想是在网络的边缘使用可学习的激活函数，而不是像MLP那样在节点上使用固定的激活函数。具体来说，KAN中的每个权重参数都被参数化为样条的单变量函数，这使得KAN在准确性和可解释性方面可能优于MLP。

然而，KAN也有一些局限性。在一些实验中，KAN在符号公式表示任务中表现优于MLP，但在其他任务中，如机器学习、计算机视觉、自然语言处理和音频处理等，MLP通常优于KAN。此外，KAN在标准的类增量持续学习设置中的遗忘问题可能比MLP更为严重。

如果有同学想发表相关论文，小编整理了一些KANvsMLP【论文】合集，以下放出部分，全部论文PDF版，需要的同学公人人人号【AI智界先锋】回复“KANvsMLP”即可全部领取

论文精选

论文1：

A comprehensive and FAIR comparison between MLP and KAN representations for differential equations and operator networks

MLP和KAN表示在微分方程和算子网络中的全面和FAIR比较

方法

Kolmogorov-Arnold Networks (KANs)：提出了KANs作为MLP的替代表示模型，用于构建物理信息机器学习模型（PIKANs）和深度算子模型（DeepOKANs）来解决正向和逆向问题的微分方程。
Physics-Informed Neural Networks (PINNs)：基于标准MLP表示的物理信息神经网络，用于解决微分方程。
Deep Operator Networks (DeepONets)：基于MLP的深度算子网络，用于学习解算子，将源项f、边界项b和/或模型参数λ映射到解u。
Information Bottleneck (IB) Theory：使用信息瓶颈理论分析PIKAN学习动态，该理论提出在训练过程中形成两个不同的阶段：“拟合”和“扩散”。

创新点

KANs的引入：KANs是基于Kolmogorov-Arnold表示定理的新模型，旨在比MLP更准确、更可解释。
PIKANs和DeepOKANs的开发：将物理信息机器学习与KANs结合，开发了新的模型来解决微分方程和算子学习任务。
性能比较：系统比较了PINN和PIKAN变体在六个基准测试上的性能，并结合了最先进的优化技术，如基于残差的注意力和涡粘度公式，使新模型能够解决更复杂的问题。
信息瓶颈理论的应用：将信息瓶颈理论扩展到PIKANs，分析了PIKAN训练动态，并确定了与PINNs观察到的三个学习阶段，为两种表示模型之间架起了桥梁。

论文2：

KAN versus MLP on Irregular or Noisy Functions

KAN与MLP在不规则或噪声函数上的表现比较

方法

函数分类：将函数分为六类：常规函数、具有局部不可微点的连续函数、具有跳跃不连续点的函数、具有奇异点的函数、具有相干振荡的函数和噪声函数。
参数控制：控制KAN和MLP网络的参数数量和训练样本大小，以确保公平比较。
优化器比较：评估不同优化器（L-BFGS和Adam）对拟合特定函数的影响。

创新点

函数规则性对网络效能的影响：研究了被近似函数的规则性如何显著影响神经网络的有效性，特别是对于展示不连续性或突然变化的不规则函数。
噪声对网络性能的影响：探讨了噪声如何掩盖函数的不规则特征，使得MLP和KAN都难以有效提取这些特征。
训练样本大小的影响：发现增加训练样本大小可以在一定程度上改善性能，尤其是在处理噪声数据时。
优化器选择的影响：通过实验分析了不同优化器对模型拟合性能的影响，为特定函数的优化提供了指导。

论文3：

GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs

GNN-SKAN：利用SwallowKAN的力量推进基于GNNs的分子表示学习

方法

分子图表示学习：通过将分子结构转换为高维表示来预测分子的物理化学性质，采用图神经网络（GNNs）对分子的拓扑结构进行建模。
集成Kolmogorov-Arnold Networks（KANs）：将KANs集成到GNNs中，以增强分子结构的表示能力。
SwallowKAN（SKAN）：作为KAN的变体，使用自适应的径向基函数（RBFs）作为非线性神经元的核心，提高计算效率和对多样化分子结构的适应性。
GNN-SKAN和GNN-SKAN+：提出了新的GNN类别GNN-SKAN及其增强变体GNN-SKAN+，后者在分类器中加入了基于SKAN的分类器以进一步提升性能。

创新点

首次集成KANs：这是首次将KANs集成到GNN架构中，专门用于分子表示学习。
SwallowKAN（SKAN）的提出：通过引入可学习的RBFs作为基础函数，不仅有效解决了原始KAN的慢速问题，还显著增强了模型对多样化数据分布的适应性。
参数计数和计算复杂度的理论分析：对KAN和SKAN的参数计数和计算复杂度进行了比较分析，显示SKAN具有更高的计算效率。
高准确性和鲁棒泛化：GNN-SKAN和GNN-SKAN+在分子属性预测任务上实现了高准确性和鲁棒泛化，超越或匹配了现有最佳模型，同时具有更低的时间和内存需求，并在少样本学习场景中表现出色。

论文4：

KAN or MLP: A Fairer Comparison

KAN还是MLP：一个更公平的比较

方法

参数和FLOPs控制：通过控制KAN和MLP的参数数量和浮点运算次数（FLOPs），在不同任务中比较两者的性能。
符号公式表示：在符号公式表示任务中比较KAN和MLP的性能。
机器学习、计算机视觉、自然语言处理和音频处理任务：在多个领域的任务中评估KAN和MLP的表现。

创新点

公平比较：提供了一个更公平、更全面的KAN和MLP模型比较，涵盖了多个任务，包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。
B-样条激活函数的影响：发现KAN在符号公式表示任务中的优势主要来自其B-样条激活函数，当MLP应用B-样条时，其在符号公式表示任务中的性能显著提高，甚至超过或匹配KAN。
持续学习问题：与KAN论文中的发现不同，在标准类增量持续学习设置中，KAN的遗忘问题比MLP更严重，这为KAN和其他MLP替代品的未来研究提供了见解。