1. 深层神经网络
1.1深层神经网络长什么样?
说实话,当进行到这一部分,想必大家也已经猜到深层神经网络的形状了,我们直接用课程里的图:

简单来说,相比浅层神经网络,深层神经网络就是神经元更多,隐藏层更复杂的神经网络。
1.2 直观理解深层网络的效果
依旧看课程里的一张图:

图下方的三幅图可以比较好的表现深层网络的效果,我们在浅层提取低级特征,而低级特征经过线性组合和激活后有作为下一层的输入提取更高级些的特征,就像图里的从边缘到整张脸。
要说明的一点是图里的图像处理实际上更常出现在卷积神经网络中,这是后面吴恩达老师在这个系列里单独作为一门的内容。
这里我们只要理解到,随着网络规模的增加,更深的层数能让我们提取更高级的特征即可。
1.3 符号规范

同样如图所示,这些符号我们也在之前使用过很多次了,并不陌生,就不再重复描述了。
1.4 深层神经网络的正向传播
我们用刚刚的网络为例:

我在图中绘制了这个网络从输入到最终输出的向量化正向传播过程,待会我们会再补充上反向部分。
不难发现,这只是之前的浅层神经网络中又增加了两个隐藏层传播。
我们之前在浅层神经网络中已经推导过这部分的公式计算了,就不再展开了。
正向传播的详细公式推导在这里
1.5 向量化神经网络中的维度变化
我们已经计算过不少次输入在神经网络里的传播,在向量化的计算过程中往往使用矩阵乘法来实现并行计算,这也就伴随着维度的变化。
这里便总结一下维度变化的规律:
先看贯穿始终的两个公式:
�[�]=�[�]�[�−1]+�[�]
�[�]=�(�[�])
首先,这里的 �[�] 的维度应该是(该层的神经元数量,输入该层样本的特征数)(该层的神经元数量,输入该层样本的特征数)(该层的神经元数量,输入该层样本的特征数)
这是因为�每行的元素个数应和输入的特征数相等,作为每一个特征的权重。
而每多一个神经元就会多一次这样的行为。
推广起来,用符号表示就是:
�[�]:(�[�],�[�−1])
于此同时,每有一组权重,就会有与之配合的一个偏置,因此:
�[�]:(�[�],1)
现在,我们通过矩阵乘法即可计算得到:
�[�]:(�[�],�)
而激活函数和求导都不会改变输入维度,所以:
�[�]:(�[�],�)
我们总结一下:
| 量 | 维度 |
|---|---|
| �[�] | (�[�],�[�−1]) |
| �[�] | (�[�],1) |
| �[�] | (�[�],�) |
| �[�] | (�[�],�) |
| 导数 | 与求导量维度相同 |

被折叠的 条评论
为什么被折叠?



