深度学习中的优化算法与网络实现
1. 牛顿 - 拉夫逊法与梯度下降法的关系
在优化问题中,牛顿 - 拉夫逊法(Newton - Raphson)和梯度下降法(Gradient Descent)是两种常用的方法。牛顿 - 拉夫逊法的优化版本存在一定挑战,它需要先计算误差函数的导数以得到求解为 0 的函数,然后在每一步都要计算这个新函数的导数,也就是需要同时计算误差函数的一阶导数和二阶导数,因此它是一种二阶优化方法。
而梯度下降法只需要计算一阶导数,属于一阶优化方法。这减少了计算量和存储需求,在优化包含数百万个参数的函数时,这种优势尤为明显。
下面用表格总结两种方法的特点:
| 方法 | 导数计算需求 | 计算和存储需求 |
| ---- | ---- | ---- |
| 牛顿 - 拉夫逊法 | 一阶导数和二阶导数 | 高 |
| 梯度下降法 | 一阶导数 | 低 |
2. 数字分类网络的矩阵实现
数字分类网络有两种不同的实现方式,分别是单矩阵实现和小批量(Mini - Batch)实现。
2.1 单矩阵实现
在不使用小批量的实现中,与之前的代码示例相比,只有 forward_pass 、 backward_pass 和 adjust_weights 这几个函数发生了变化。这些函数不再对单个神经元进行循环和点积运算,而是使用矩阵运算并行处理整个层。
def forward_pass(x)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



