陈巍:KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点(“神经元”)上具有固定的激活函数,而 KAN 在边(“权重”)上具有可学习的激活函数。在数据拟合和 PDE 求解中,较小的 KAN 可以比较大的 MLP 获得更好的准确性。
相对MLP,KAN也具备更好的可解释性,适合作为数学和物理研究中的辅助模型,帮助发现和寻找更基础的数值规律。(点赞是我们分享的动力)

MLP与KAN对比
与传统的MLP 相比,KAN 有4个主要特点:
1)激活函数位于“边”而不是节点(Node)上;
2)激活函数是可学习的而不是固定的;
3)可以使用非线性核函数来替代MLP“边”(Edge)上的线性函数;
4)可以设定细粒度的结点(Knot)来提高逼近精度。
就我们来看,由于可以设置单独的激活层来替代“边”上激活的结构(相当于每个“边”上插入一个节点),因此特点1并非KAN的核心特征。特点4在实际使用时需要做大量的查表插值,对存储带宽的要求非常高,可能并不一定适合常规的AI芯片进行计算,估计在未来也不是KAN的核心特征。
--------------------------------------------------
主编作者陈巍 博士,高级职称,曾担任华X系相关自然语言处理( NLP )企业的首席科学家,大模型算法-芯片协同设计专家,国际计算机学会(ACM)会员、中国计算机学会(CCF)专业会员。主要研究领域包括大模型(Finetune、Agent、RAG)、存算一体、GPGPU。
目录
1 基本思路
1.1 MLP与Spline的优缺点
多层感知器 (MLP)是深度学习的基础理论模块,是目前可用于逼近非线性函数的默认模型,其表征能力已由通用逼近定理证明。但MLP也有明显的缺点,例如在 Transformer中,MLP 的参数量巨大,且通常不具备可解释性。
为了提升表征能力,MIT提出了KAN。KAN本质上是样条(Spline)曲线和 MLP 的组合,吸收了两者的优点。即
KAN = MLP + Spline
在数学中,样条曲线是由多项式分段定义的函数。一般的Spline可以是特定区间的3阶多项式。在插值问题中,样条插值通常优于多项式插值,因为即使使用低次多项式,也能产生类似的精度结果,同时避免了高次多项式的Runge's phenomenon(在一组等距插值点上使用高次多项式进行多项式插值时出现的区间边缘振荡问题)。

样条曲线

MLP与样条的优缺点对比
1.2 Kolmogorov-Arnold表示定理
Vladimir Arnold与 Andrey Kolmogorov证明了实分析中的如下表示定理:
如果f是多元连续函数,则f可以写成有限数量的单变量连续函数的两层嵌套叠加。其数学表达式就是

该定理解决了希尔伯特第十三问题的一个更受约束但更一般的形式。在数学上,Φq称外部函数(outer functions),Φq,p称为内部函数(inner functions)。
这表明在实数域上,唯一真正的多元函数是求和,因为所有其他函数都可以使用单变量函数求和来表征。
换个形象的说法,就是你家里做个复杂的事(包含多个任务),你爸你妈和你可以分别干活然后汇总,并不需要三个人同时忙一个任务。
顺带八卦下,Vladimir 是位前苏联神童, Andrey则是他的导师。
2 KAN架构与缩放
2.1 KAN架构
KAN的架构设计来自一个数学问题:对一个由输入输出对 {xi, yi} 组成的有监督学习任务,寻找函数f 使得所有数据点的 yi≈ f (xi)。其核心在于找到合适的单变量函数 Φq,p(内部函数)和 Φq(外部函数)。
在KAN中,使用B-spline(B样条)来构建。B-spline是基础样条(Basic Spline)的缩写。
对于B-spline,函数在其定义域内、在结点(Knot)都具有相同的连续性。其多项式表达可由Cox-de Boor 递推公式表达:

文章探讨了KAN网络结构,其在边上的可学习激活函数相比于MLP的优势,包括在数据拟合和PDE求解中的精度提升以及更好的可解释性。文章还分析了KAN与Spline的关系,以及KAN架构的优化和挑战,指出KAN的发展空间和瓶颈主要是训练速度和计算效率问题。
最低0.47元/天 解锁文章
939

被折叠的 条评论
为什么被折叠?



