本文是深度学习系列文章,针对《KAN or MLP: A Fairer Comparison》的翻译。
摘要
本文没有介绍一种新方法。相反,它对各种任务中的KAN和MLP模型进行了更公平、更全面的比较,包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。具体来说,我们控制参数和FLOP的数量,以比较KAN和MLP的性能。我们的主要观察是,除了符号公式表示任务外,MLP通常优于KAN。我们还对KAN进行了消融研究,发现其在符号公式表示方面的优势主要源于其B样条激活函数。当将B样条应用于MLP时,符号公式表示的性能显著提高,超过或匹配KAN。然而,在MLP已经优于KAN的其他任务中,B样条并没有显著提高MLP的性能。此外,我们发现,在标准的分级持续学习环境中,KAN的遗忘问题比MLP更严重,这与KAN论文中报告的结果不同。我们希望这些结果为未来KAN和其他MLP替代品的研究提供见解。
1 引言
2 KAN和MLP的公式化
3 KAN和MLP的参数数量
4 KAN and MLP的FLOPs
5 实验
6 相关工作
7 结论
在这项工作中,我们首先对KAN和MLP的正向过程进行了数学比较。我们发现KAN可以被视为一种特殊类型的MLP,其独特性源于使用可学习的B样条函数作为激活函数。我们假设激活功能的这种差异是KAN和MLP之间功能差异的主要原因。为了验证这一假设,我们比较了KAN和MLP在符号公式表示、机器学习、计算机视觉、自然语言处理和音频处理任务上的性能,并控制了相同数量的参数或FLOP。我们的实验表明,KAN仅在符号公式表示方面具有优势,而MLP在其他任务中的表现优于KAN。此外,我们发现,在用可学习的B样条代替MLP的激活函数后,MLP在所有任务中的表现都优于或可与KAN相媲美。最后,我们发现,在标准班级增量学习设置下,KAN与MLP相比表现出更严重的遗忘问题。