39、深度学习为何有效?

深度学习为何有效?

1. 对深度学习的质疑

在深度学习领域,有两个现象看似理所当然,实则令人惊讶:一是深度网络易于训练,二是它们能够很好地泛化到新数据。
- 训练方面 :以MNIST - 1D数据集为例,一个两层全连接网络,每层有43个隐藏单元(约4000个参数)时,就能完美分类10000个训练样本。然而,寻找任意非凸函数的全局最小值是NP难问题,某些神经网络损失函数也是如此。但拟合算法却能高效地避免陷入局部最小值或卡在鞍点附近,还能利用多余的模型容量去拟合训练数据。
- 虽然当参数数量远多于训练数据时,训练成功可能不那么令人意外,但实际情况并非总是如此。例如AlexNet有大约6000万个参数,使用约100万个数据点进行训练,且每个训练样本还进行了2048次变换;GPT - 3有1750亿个参数,使用3000亿个标记进行训练,很难明确它们是否属于过参数化,但它们都训练成功了。
- 泛化方面 :神经网络不仅能高效拟合,其对新数据的泛化能力更是惊人。
- 首先,典型数据集是否足以刻画输入输出映射并不明确。以MNIST - 1D数据为例,若每个输入量化为10个可能值,可能的输入数量比训练样本数量多$10^{35}$倍。
- 其次,深度网络描述的是非常复杂的函数。一个两层宽度为400的全连接网络可创建多达$10^{42}$个线性区域,但训练过程中很少有区域包含数据,不过遇到数据点的区域会约束其他区域合理表现。
- 最后,参数越多,泛化能力越好。如上述网络有177,201个参数,即使有大量冗余自由度,模型在训练数据之间的表现依然合理。

2. 影响拟合性能的因素

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值