深度学习目前并没有一个统一的理论框架,没有理论上的解析解,模型的求解依赖于数值优化,因此,对深度学习模型架构的思考不能受限于naive的理论层面,而是应该结合优化算法。
理论上,一个简单的MLP就应该可以拟合出所有的函数关系。但是在正确拟合的前提下,MLP模型架构中需要的参数过多(MLP自身可以组合衍生出其他架构),这会使得路径过多,且过于稀疏,从而通常的随机剃度下降算法的优化路径太多,学习难度会大大的提升,从而在MLP的前提下,难以学得正确的参数。
因此,在算力和数据都有限的前提下,我们需要更加合理的模型架构,通过架构的合理设计,将优化路径范围缩小,使得正确模型的学习更加容易。
所以,深度学习中,理论完备不是重点,重点是,更加高效的学习到规律。条条大路通罗马,那一条才是在现实条件下,有可能快速达到的,这才是重要的。比如,对于一个复杂序列预测任务,我们或许可以在大量数据大量算力的训练下,花了很久才能得到一个较好的MLP模型,但是如果换成了注意力模型,可能相对少量数据少量算力,并且很快的就可以得到一个更好的模型。
深度学习小思1
最新推荐文章于 2023-03-10 10:41:20 发布