KAN网络技术最全解析—最热KAN能否干掉MLP和Transformer？（收录于GPT-4/ChatGPT技术与产业分析）

原创

已于 2024-05-16 18:29:37 修改 · 1.1w 阅读

87 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #chatgpt #深度学习 #人工智能 #ai #云计算

于 2024-05-05 21:35:42 首次发布

文章探讨了KAN网络结构，其在边上的可学习激活函数相比于MLP的优势，包括在数据拟合和PDE求解中的精度提升以及更好的可解释性。文章还分析了KAN与Spline的关系，以及KAN架构的优化和挑战，指出KAN的发展空间和瓶颈主要是训练速度和计算效率问题。

陈巍：KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点（“神经元”）上具有固定的激活函数，而 KAN 在边（“权重”）上具有可学习的激活函数。在数据拟合和 PDE 求解中，较小的 KAN 可以比较大的 MLP 获得更好的准确性。

相对MLP，KAN也具备更好的可解释性，适合作为数学和物理研究中的辅助模型，帮助发现和寻找更基础的数值规律。（点赞是我们分享的动力）

MLP与KAN对比

与传统的MLP 相比，KAN 有4个主要特点：

1）激活函数位于“边”而不是节点（Node）上；

2）激活函数是可学习的而不是固定的；

3）可以使用非线性核函数来替代MLP“边”（Edge）上的线性函数；

4）可以设定细粒度的结点（Knot）来提高逼近精度。

就我们来看，由于可以设置单独的激活层来替代“边”上激活的结构（相当于每个“边”上插入一个节点），因此特点1并非KAN的核心特征。特点4在实际使用时需要做大量的查表插值，对存储带宽的要求非常高，可能并不一定适合常规的AI芯片进行计算，估计在未来也不是KAN的核心特征。

--------------------------------------------------

主编作者陈巍博士，高级职称，曾担任华X系相关自然语言处理（ NLP ）企业的首席科学家，大模型算法-芯片协同设计专家，国际计算机学会（ACM）会员、中国计算机学会（CCF）专业会员。主要研究领域包括大模型（Finetune、Agent、RAG）、存算一体、GPGPU。

1 基本思路

1.1 MLP与Spline的优缺点

1.2 Kolmogorov-Arnold表示定理

1 基本思路

1.1 MLP与Spline的优缺点

多层感知器 (MLP)是深度学习的基础理论模块，是目前可用于逼近非线性函数的默认模型，其表征能力已由通用逼近定理证明。但MLP也有明显的缺点，例如在 Transformer中，MLP 的参数量巨大，且通常不具备可解释性。

为了提升表征能力，MIT提出了KAN。KAN本质上是样条（Spline）曲线和 MLP 的组合，吸收了两者的优点。即

KAN = MLP + Spline

在数学中，样条曲线是由多项式分段定义的函数。一般的Spline可以是特定区间的3阶多项式。在插值问题中，样条插值通常优于多项式插值，因为即使使用低次多项式，也能产生类似的精度结果，同时避免了高次多项式的Runge's phenomenon（在一组等距插值点上使用高次多项式进行多项式插值时出现的区间边缘振荡问题）。