干掉MLP!一次更公平的较量 (大部分情况KAN不如MLP)

2024深度学习发论文&模型涨点之——KANvsMLP

KAN(Kolmogorov-Arnold Networks)是一种新型的神经网络架构,它基于Kolmogorov-Arnold表示定理,提供了一种与传统多层感知器(MLP)不同的网络设计。KAN的核心思想是在网络的边缘使用可学习的激活函数,而不是像MLP那样在节点上使用固定的激活函数。具体来说,KAN中的每个权重参数都被参数化为样条的单变量函数,这使得KAN在准确性和可解释性方面可能优于MLP。

然而,KAN也有一些局限性。在一些实验中,KAN在符号公式表示任务中表现优于MLP,但在其他任务中,如机器学习、计算机视觉、自然语言处理和音频处理等,MLP通常优于KAN。此外,KAN在标准的类增量持续学习设置中的遗忘问题可能比MLP更为严重。

如果有同学想发表相关论文,小编整理了一些KANvsMLP【论文】合集,以下放出部分,全部论文PDF版,需要的同学公人人人号【AI智界先锋】回复“KANvsMLP”即可全部领取

论文精选

论文1:

A comprehensive and FAIR comparison between MLP and KAN representations for differential equations and operator networks

MLP和KAN表示在微分方程和算子网络中的全面和FAIR比较

方法

  • Kolmogorov-Arnold Networks (KANs):提出了KANs作为MLP的替代表示模型,用于构建物理信息机器学习模型(PIKANs)和深度算子模型(DeepOKANs)来解决正向和逆向问题的微分方程。

  • Physics-Informed Neural Networks (PINNs):基于标准MLP表示的物理信息神经网络,用于解决微分方程。

  • Deep Operator Networks (DeepONets):基于MLP的深度算子网络,用于学习解算子,将源项f、边界项b和/或模型参数λ映射到解u。

  • Information Bottleneck (IB) Theory:使用信息瓶颈理论分析PIKAN学习动态,该理论提出在训练过程中形成两个不同的阶段:“拟合”和“扩散”。

图片

创新点

  • KANs的引入:KANs是基于Kolmogorov-Arnold表示定理的新模型,旨在比MLP更准确、更可解释。

  • PIKANs和DeepOKANs的开发:将物理信息机器学习与KANs结合,开发了新的模型来解决微分方程和算子学习任务。

  • 性能比较:系统比较了PINN和PIKAN变体在六个基准测试上的性能,并结合了最先进的优化技术,如基于残差的注意力和涡粘度公式,使新模型能够解决更复杂的问题。

  • 信息瓶颈理论的应用:将信息瓶颈理论扩展到PIKANs,分析了PIKAN训练动态,并确定了与PINNs观察到的三个学习阶段,为两种表示模型之间架起了桥梁。

图片

论文2:

KAN versus MLP on Irregular or Noisy Functions

KAN与MLP在不规则或噪声函数上的表现比较

方法

  • 函数分类:将函数分为六类:常规函数、具有局部不可微点的连续函数、具有跳跃不连续点的函数、具有奇异点的函数、具有相干振荡的函数和噪声函数。

  • 参数控制:控制KAN和MLP网络的参数数量和训练样本大小,以确保公平比较。

  • 优化器比较:评估不同优化器(L-BFGS和Adam)对拟合特定函数的影响。

图片

创新点

  • 函数规则性对网络效能的影响:研究了被近似函数的规则性如何显著影响神经网络的有效性,特别是对于展示不连续性或突然变化的不规则函数。

  • 噪声对网络性能的影响:探讨了噪声如何掩盖函数的不规则特征,使得MLP和KAN都难以有效提取这些特征。

  • 训练样本大小的影响:发现增加训练样本大小可以在一定程度上改善性能,尤其是在处理噪声数据时。

  • 优化器选择的影响:通过实验分析了不同优化器对模型拟合性能的影响,为特定函数的优化提供了指导。

图片


论文3:

GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs

GNN-SKAN:利用SwallowKAN的力量推进基于GNNs的分子表示学习

方法

  • 分子图表示学习:通过将分子结构转换为高维表示来预测分子的物理化学性质,采用图神经网络(GNNs)对分子的拓扑结构进行建模。

  • 集成Kolmogorov-Arnold Networks(KANs):将KANs集成到GNNs中,以增强分子结构的表示能力。

  • SwallowKAN(SKAN):作为KAN的变体,使用自适应的径向基函数(RBFs)作为非线性神经元的核心,提高计算效率和对多样化分子结构的适应性。

  • GNN-SKAN和GNN-SKAN+:提出了新的GNN类别GNN-SKAN及其增强变体GNN-SKAN+,后者在分类器中加入了基于SKAN的分类器以进一步提升性能。

图片

创新点

  • 首次集成KANs:这是首次将KANs集成到GNN架构中,专门用于分子表示学习。

  • SwallowKAN(SKAN)的提出:通过引入可学习的RBFs作为基础函数,不仅有效解决了原始KAN的慢速问题,还显著增强了模型对多样化数据分布的适应性。

  • 参数计数和计算复杂度的理论分析:对KAN和SKAN的参数计数和计算复杂度进行了比较分析,显示SKAN具有更高的计算效率。

  • 高准确性和鲁棒泛化:GNN-SKAN和GNN-SKAN+在分子属性预测任务上实现了高准确性和鲁棒泛化,超越或匹配了现有最佳模型,同时具有更低的时间和内存需求,并在少样本学习场景中表现出色。

图片

论文4:

KAN or MLP: A Fairer Comparison

KAN还是MLP:一个更公平的比较

方法

  • 参数和FLOPs控制:通过控制KAN和MLP的参数数量和浮点运算次数(FLOPs),在不同任务中比较两者的性能。

  • 符号公式表示:在符号公式表示任务中比较KAN和MLP的性能。

  • 机器学习、计算机视觉、自然语言处理和音频处理任务:在多个领域的任务中评估KAN和MLP的表现。

图片

创新点

  • 公平比较:提供了一个更公平、更全面的KAN和MLP模型比较,涵盖了多个任务,包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。

  • B-样条激活函数的影响:发现KAN在符号公式表示任务中的优势主要来自其B-样条激活函数,当MLP应用B-样条时,其在符号公式表示任务中的性能显著提高,甚至超过或匹配KAN。

  • 持续学习问题:与KAN论文中的发现不同,在标准类增量持续学习设置中,KAN的遗忘问题比MLP更严重,这为KAN和其他MLP替代品的未来研究提供了见解。

图片

如果有同学想发表相关论文,小编整理了一些KANvsMLP【论文】合集。

需要的同学公人人人号【AI智界先锋】回复“KANvsMLP”即可全部领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值