【机器学习小记】【深度神经网络】deeplearning.ai course1 4th week programming

最新推荐文章于 2026-01-09 20:34:07 发布

原创最新推荐文章于 2026-01-09 20:34:07 发布 · 276 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

初学深度学习专栏收录该内容

12 篇文章

订阅专栏

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

深度神经网络

数据集介绍
模型搭建
初始始化参数
前向传播
计算成本
反向传播
更新参数（梯度下降）
结果
- 预测失败的图片分析

目标：搭建L层神经网络

参考自：【中文】【吴恩达课后编程作业】Course 1 - 神经网络和深度学习 - 第四周作业(1&2)

数据集介绍

同第二周，猫的图片64*64的三通道图
具有神经网络思维的Logistic回归

模型搭建

每一层神经网络都是由两部分组成

线性部分 $Z^{l} = W^{l}A^{l-1} + b^{l}$
激活部分 $A^{l} = activate(Z^{l})$
( $l$ 表示层数)
(输出层为第0层)

其中，由于是二分类神经网络，所以第1~L-1层使用ReLU激活函数,第L层使用Sigmoid激活函数

初始始化参数

注：返回的W是已经转置的过的

W.shape = (当前层的神经元数，上一层的神经元数）

前向传播

前向传播，对于第1~L-1层，
线性部分:
$Z^{[l](i)} = W^{[l]}A^{[l-1](i)} + b^{[l](i)}$
激活部分：
$A^{[l](i)} = ReLU(Z^{[l](i)})$

第L层，激活部分激活函数不同
激活部分：
$A^{[L](i)} = Sigmoid(Z^{[L](i)})$

计算成本

使用的是【交叉熵】成本函数

损失函数：
$L(A^{(i)},Y^{(i)}) = -Y^{(i)}\log(A^{[L](i)}) - (1-Y^{(i)})\log(1-A^{[L](i)})$
成本函数：
$\over m} \sum_{i=1}^n L(A^{[L](i)},Y^{(i)})$

反向传播

~~先借图~~

在这里插入图片描述
在反向传播,对于第1~L-1层，我们依旧分两部分，分别求其激活部分和线性部分
激活部分：

$dZ^{[l]} = dA^{[l]} g'(Z^{[l]})$

线性部分：
$dW^{[l]}= {\partial L \over \partial W^{[l]}} = {1 \over m}dZ^{[l]} \cdot A^{[l-1]T}$

$db^{[l]} = {\partial L \over \partial b^{[l]}} = {1 \over m} \sum_{i=1}^m{dZ^{[l](i)}}$

$dA^{[l-1]} = {\partial L \over \partial A^{[l-1]}} = W^{[l]T} \cdot dZ^{[l]}$

总结:
传入第 $l$ 层的 $dA^{[l]}$ 之后，经过激活部分得到 $Z^{[l]}$ ，再经过线性部分得到 $A^{[l-1]},W^{[l]},b^{[l]}$

对于第L层，由于激活函数不同，且dAL是成本函数的导数，略微特殊处理
$\over AL} + {1-Y \over 1-AL}$

更新参数（梯度下降）

$W^{[l]} = W^{[l]} - \alpha ~dW^{[l]}$

$b^{[l]} = b^{[l]} - \alpha~db^{[l]}$

结果

一个4层的神经网络

layers_dims = [12288, 20, 7, 5, 1]  # 4-layer model

第 0 次迭代，成本值为： 0.715731513413713
第 100 次迭代，成本值为： 0.6747377593469114
第 200 次迭代，成本值为： 0.6603365433622127
第 300 次迭代，成本值为： 0.6462887802148751
第 400 次迭代，成本值为： 0.6298131216927773
第 500 次迭代，成本值为： 0.606005622926534
第 600 次迭代，成本值为： 0.5690041263975134
第 700 次迭代，成本值为： 0.519796535043806
第 800 次迭代，成本值为： 0.46415716786282285
第 900 次迭代，成本值为： 0.40842030048298916
第 1000 次迭代，成本值为： 0.37315499216069026
第 1100 次迭代，成本值为： 0.30572374573047106
第 1200 次迭代，成本值为： 0.26810152847740837
第 1300 次迭代，成本值为： 0.23872474827672654
第 1400 次迭代，成本值为： 0.20632263257914718
第 1500 次迭代，成本值为： 0.17943886927493605
第 1600 次迭代，成本值为： 0.1579873581880163
第 1700 次迭代，成本值为： 0.14240413012274492
第 1800 次迭代，成本值为： 0.12865165997888675
第 1900 次迭代，成本值为： 0.1124431499816437
第 2000 次迭代，成本值为： 0.08505631034982422
第 2100 次迭代，成本值为： 0.05758391198616691
第 2200 次迭代，成本值为： 0.044567534546991264
第 2300 次迭代，成本值为： 0.03808275166600256
第 2400 次迭代，成本值为： 0.034410749018419895
准确度为: 0.9952153110047847
准确度为: 0.78