深度学习:从基础到框架应用
1. 机器学习与神经网络基础
在机器学习中,算法能够从训练示例中发现信息,而非手动硬编码这些信息。以神经网络为例,这些信息会被编码到网络权重中。我们虽未尝试编写硬编码的程序,但推测其代码会很长。
从单个神经元的描述开始,我们逐步连接多个神经元,并应用学习算法,最终构建出一个能够对手写数字进行分类的系统。此示例中使用的数据集于1998年发布,这与科幻作品中的情节有所不同,提醒我们要区分现实与虚构。
2. 小批量梯度下降
2.1 梯度下降方法对比
之前我们使用的是随机梯度下降(SGD),而非真正的梯度下降。二者区别如下:
| 梯度下降方法 | 计算方式 | 特点 |
| — | — | — |
| 随机梯度下降(SGD) | 对单个训练示例计算梯度后更新权重 | 计算量小,但梯度估计可能不准确 |
| 真正的梯度下降(批量梯度下降) | 遍历整个数据集,计算所有训练示例梯度的平均值后更新权重 | 梯度估计更准确,但计算量大 |
小批量梯度下降是一种折中的方法,它使用一小部分训练示例(即小批量)。这样既能比真正的梯度下降更频繁地更新权重(每次更新的计算量更小),又能比使用单个示例得到更准确的梯度估计。现代硬件(如GPU)能并行计算整个小批量,因此计算时间不会比计算单个示例长。
2.2 术语说明
- 真正的梯度下降方法使用批量(整个训练数据集),也称为批量梯度下降。
- 结合了批量和随机梯度下降的小批量梯度下降,小批量的大小常被称为批量大小。
- 严格来说,SG
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



