5、深层神经网络块、超参数

最新推荐文章于 2023-12-06 22:59:49 发布

原创最新推荐文章于 2023-12-06 22:59:49 发布 · 287 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络

本文详细解析了深层神经网络的正向与反向传播过程，强调了缓存z、w、b的重要性，以及如何通过da[l]回溯到da[1]。同时，介绍了超参数的概念，包括学习率α、隐藏层数L及隐藏单元数n[l]，并讨论了它们对最终参数w、b的影响。

此次主要学习了在搭建一个深层神经网络模块时，需要注意到哪些内容，本文将通过下图进行说明：
在这里插入图片描述
上图描述的是一个深层神经网络模型正向和反向传播的过程。每一个方框代表着一个隐藏层。
从图中得出，有几处要点需要注意：
（1）正向传播过程中，需要将每一层的 $z^{[l]}、w^{[l]}、b^{[l]}$ 进行缓存，方便反向传播时使用（尤其是在编写代码时须注意）。
（2）正向传播是由 $a^{[0]}$ 得到 $a^{[l]}$ 的过程，反向传播是由 $da^{[l]}$ 得到 $da^{[1]}$ 的过程。
（3）反向传播中，每一个层会输出 $dw^{[l]}、db^{[l]}$ ，用于梯度下降，即更新参数。
具体的公式表达形式如下图所示：
在这里插入图片描述

什么是超参数？

超参数是指能影响 $w 、 b$ 的参数，如：学习率： $α\alpha$ 、隐藏层数：L、隐藏单元数： $n^{[l]}$ 等等超参数决定了最终得到的参数 $w 、 b$ 。因此，可以这样说，超参数是一种用于控制参数的参数。
在实际的神经网络学习中，超参数的选择有许多的可能性，所以需要尝试许多不同的值。