2024深度学习发论文&模型涨点之——KANvsMLP
KAN(Kolmogorov-Arnold Networks)是一种新型的神经网络架构,它基于Kolmogorov-Arnold表示定理,提供了一种与传统多层感知器(MLP)不同的网络设计。KAN的核心思想是在网络的边缘使用可学习的激活函数,而不是像MLP那样在节点上使用固定的激活函数。具体来说,KAN中的每个权重参数都被参数化为样条的单变量函数,这使得KAN在准确性和可解释性方面可能优于MLP。
然而,KAN也有一些局限性。在一些实验中,KAN在符号公式表示任务中表现优于MLP,但在其他任务中,如机器学习、计算机视觉、自然语言处理和音频处理等,MLP通常优于KAN。此外,KAN在标准的类增量持续学习设置中的遗忘问题可能比MLP更为严重。
如果有同学想发表相关论文,小编整理了一些KANvsMLP【论文】合集,以下放出部分,全部论文PDF版,需要的同学公人人人号【AI智界先锋】回复“KANvsMLP”即可全部领取
论文精选
论文1:
A comprehensive and FAIR comparison between MLP and KAN representations for differential equations and operator networks
MLP和KAN表示在微分方程和算子网络中的全面和FAIR比较
方法
-
Kolmogorov-Arnold Networks (KANs):提出了KANs作为MLP的替代表示模型,用于构建物理信息机器学习模型(PIKANs)和深度算子模型(DeepOKANs)来解决正向和逆向问题的微分方程。
-
Physics-Informed Neural Networks (PINNs):基于标准MLP表示的物理信息神经网络,用于解决微分方程。
-
Deep Operator Networks (DeepONets):基于MLP的深度算子网络,用于学习解算子,将源项f、边界项b和/或模型参数λ映射到解u。
-
Information Bottleneck (IB) Theory:使用信息瓶颈理论分析PIKAN学习动态,该理论提出在训练过程中形成两个不同的阶段:“拟合”和“扩散”。
创新点
-
KANs的引入:KANs是基于Kolmogorov-Arnold表示定理的新模型,旨在比MLP更准确、更可解释。
-
PIKANs和DeepOKANs的开发:将物理信息机器学习与KANs结合,开发了新的模型来解决微分方程和算子学习任务。
-
性能比较:系统比较了PINN和PIKAN变体在六个基准测试上的性能,并结合了最先进的优化技术,如基于残差的注意力和涡粘度公式,使新模型能够解决更复杂的问题。
-
信息瓶颈理论的应用:将信息瓶颈理论扩展到PIKANs,分析了PIKAN训练动态,并确定了与PINNs观察到的三个学习阶段,为两种表示模型之间架起了桥梁。
论文2:
KAN versus MLP on Irregular or Noisy Functions
KAN与MLP在不规则或噪声函数上的表现比较
方法
-
函数分类:将函数分为六类:常规函数、具有局部不可微点的连续函数、具有跳跃不连续点的函数、具有奇异点的函数、具有相干振荡的函数和噪声函数。
-
参数控制:控制KAN和MLP网络的参数数量和训练样本大小,以确保公平比较。
-
优化器比较:评估不同优化器(L-BFGS和Adam)对拟合特定函数的影响。
创新点
-
函数规则性对网络效能的影响:研究了被近似函数的规则性如何显著影响神经网络的有效性,特别是对于展示不连续性或突然变化的不规则函数。
-
噪声对网络性能的影响:探讨了噪声如何掩盖函数的不规则特征,使得MLP和KAN都难以有效提取这些特征。
-
训练样本大小的影响:发现增加训练样本大小可以在一定程度上改善性能,尤其是在处理噪声数据时。
-
优化器选择的影响:通过实验分析了不同优化器对模型拟合性能的影响,为特定函数的优化提供了指导。
论文3:
GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs
GNN-SKAN:利用SwallowKAN的力量推进基于GNNs的分子表示学习
方法
-
分子图表示学习:通过将分子结构转换为高维表示来预测分子的物理化学性质,采用图神经网络(GNNs)对分子的拓扑结构进行建模。
-
集成Kolmogorov-Arnold Networks(KANs):将KANs集成到GNNs中,以增强分子结构的表示能力。
-
SwallowKAN(SKAN):作为KAN的变体,使用自适应的径向基函数(RBFs)作为非线性神经元的核心,提高计算效率和对多样化分子结构的适应性。
-
GNN-SKAN和GNN-SKAN+:提出了新的GNN类别GNN-SKAN及其增强变体GNN-SKAN+,后者在分类器中加入了基于SKAN的分类器以进一步提升性能。
创新点
-
首次集成KANs:这是首次将KANs集成到GNN架构中,专门用于分子表示学习。
-
SwallowKAN(SKAN)的提出:通过引入可学习的RBFs作为基础函数,不仅有效解决了原始KAN的慢速问题,还显著增强了模型对多样化数据分布的适应性。
-
参数计数和计算复杂度的理论分析:对KAN和SKAN的参数计数和计算复杂度进行了比较分析,显示SKAN具有更高的计算效率。
-
高准确性和鲁棒泛化:GNN-SKAN和GNN-SKAN+在分子属性预测任务上实现了高准确性和鲁棒泛化,超越或匹配了现有最佳模型,同时具有更低的时间和内存需求,并在少样本学习场景中表现出色。
论文4:
KAN or MLP: A Fairer Comparison
KAN还是MLP:一个更公平的比较
方法
-
参数和FLOPs控制:通过控制KAN和MLP的参数数量和浮点运算次数(FLOPs),在不同任务中比较两者的性能。
-
符号公式表示:在符号公式表示任务中比较KAN和MLP的性能。
-
机器学习、计算机视觉、自然语言处理和音频处理任务:在多个领域的任务中评估KAN和MLP的表现。
创新点
-
公平比较:提供了一个更公平、更全面的KAN和MLP模型比较,涵盖了多个任务,包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。
-
B-样条激活函数的影响:发现KAN在符号公式表示任务中的优势主要来自其B-样条激活函数,当MLP应用B-样条时,其在符号公式表示任务中的性能显著提高,甚至超过或匹配KAN。
-
持续学习问题:与KAN论文中的发现不同,在标准类增量持续学习设置中,KAN的遗忘问题比MLP更严重,这为KAN和其他MLP替代品的未来研究提供了见解。
如果有同学想发表相关论文,小编整理了一些KANvsMLP【论文】合集。
需要的同学公人人人号【AI智界先锋】回复“KANvsMLP”即可全部领取