向量化实现的解释（ Justification for vectorized implementation）

原创已于 2022-07-26 08:14:58 修改 · 437 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习 #深度学习

于 2022-06-20 11:02:32 首次发布

深度学习同时被 3 个专栏收录

12 篇文章

订阅专栏

神经网络

6 篇文章

订阅专栏

机器学习

6 篇文章

订阅专栏

该内容解释了神经网络前向传播的向量化实现原理，通过矩阵运算和Python的广播机制，展示了如何将多个样本的计算整合到一起，避免显式循环。强调了使用矩阵表示输入和输出在神经网络计算中的效率和简洁性，并指出这种向量化方法适用于神经网络的每一层。最后，提及了激活函数的选择，并预告了后续将探讨更多类型的激活函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.5 向量化实现的解释（ Justification for vectorized
implementation）
　　在上一个视频中，我们学习到如何将多个训练样本横向堆叠成一个矩阵𝑋，然后就可以推导出神经网络中前向传播（forward propagation）部分的向量化实现。
　　在这个视频中，我们将会继续了解到，为什么上一节中写下的公式就是将多个样本向量化的正确实现。
　　我们先手动对几个样本计算一下前向传播，看看有什么规律：
　　公式 3.16： ${{z}^{[1](1)}}$ = ${{W}^{[1]}}$ ${{x}^{(1)}}$ + ${{b}^{[１]}}$
　　
　　 ${{z}^{[1](2)}}$ = ${{W}^{[1]}}$ ${{x}^{(2)}}$ + ${{b}^{[１]}}$
　　 ${{z}^{[1](3)}}$ = ${{W}^{[1]}}$ ${{x}^{(3)}}$ + ${{b}^{[１]}}$
　　这里，为了描述的简便，我们先忽略掉 ${{b}^{[1]}}$ 后面你将会看到利用 Python 的广播机制，可以很容易的将 ${{b}^{[1]}}$ 加进来。
　　现在 ${{W}^{[1]}}$ 是一个矩阵， ${{x}^{(1)}}$ , ${{x}^{(2)}}$ , ${{x}^{(3)}}$ 都是列向量，矩阵乘以列向量得到列向量，下面将它们用图形直观的表示出来: 公式 3.17：
在这里插入图片描述

视频中，吴恩达老师很细心的用不同的颜色表示不同的样本向量，及其对应的输出。所以从图中可以看出，当加入更多样本时，只需向矩阵𝑋中加入更多列。
　　所以从这里我们也可以了解到，为什么之前我们对单个样本的计算要写成 ${{z}^{[1](i)}}$ = ${{W}^{[1]}}$ ${{x}^{(i)}}$ + ${{b}^{[1]}}$ 这种形式，因为当有不同的训练样本时，将它们堆到矩阵𝑋的各列中，那么它们的输出也就会相应的堆叠到矩阵 ${{z}^{[1]}}$ 的各列中。现在我们就可以直接计算矩阵 ${{z}^{[1]}}$ 加上 ${{b}^{[1]}}$ ，因为列向量 ${{b}^{[1]}}$ 和矩阵 ${{z}^{[1]}}$ 的列向量有着相同的尺寸，而 Python 的广播机制对于这种矩阵与向量直接相加的处理方式是，将向量与矩阵的每一列相加。所以这一节只是说明了为什么公式 ${{z}^{[1]}}$ = ${{W}^{[1]}}$ 𝑋 + ${{b}^{[1]}}$ 是前向传播的第一步计算的正确向量化实现，但事实证明，类似的分析可以发现，前向传播的其它步也可以使用非常相似的逻辑，即如果将输入按列向量横向堆叠进矩阵，那么通过公式计算之后，也能得到成列堆叠的输出。
　　最后，对这一段视频的内容做一个总结:
　　由公式 3.12、公式 3.13、公式 3.14、公式 3.15 可以看出，使用向量化的方法，可以不需要显示循环，而直接通过矩阵运算从𝑋就可以计算出 ${{A}^{[1]}}$ ，实际上𝑋可以记为 ${{A}^{[0]}}$ ，使用同样的方法就可以由神经网络中的每一层的输入 ${{A}^{[i-1]}}$ 计算输出 ${{A}^{[i]}}$ 。其实这些方程有一定对称性，其中第一个方程也可以写成 ${{z}^{[1]}}$ = ${{W}^{[1]}}$ ${{A}^{[0]}}$ + ${{b}^{[1]}}$ ，你看这对方程，还有这对方程形式其实很类似，只不过这里所有指标加了 1。所以这样就显示出神经网络的不同层次，你知道大概每一步做的都是一样的，或者只不过同样的计算不断重复而已。这里我们有一个双层神经网络，我们在下周视频里会讲深得多的神经网络，你看到随着网络的深度变大，基本上也还是重复这两步运算，只不过是比这里你看到的重复次数更多。在下周的视频中将会讲解更深层次的神经网络，随着层数的加深，基本上也还是重复同样的运算。
　　以上就是对神经网络向量化实现的正确性的解释，到目前为止，我们仅使用 sigmoid 函数作为激活函数，事实上这并非最好的选择，在下一个视频中，将会继续深入的讲解如何使用更多不同种类的激活函数。