吴恩达人工智能学习笔记

最新推荐文章于 2024-05-16 20:43:46 发布

原创最新推荐文章于 2024-05-16 20:43:46 发布 · 547 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#吴恩达 #学习笔记

神经网络入门专栏收录该内容

1 篇文章

订阅专栏

第一部分

第三周浅层神经网络

3.6 激活函数

默认用 ReLU，学习速度更快。
一般用 tanh 代替 sigmoid。
二分类时，输出端为(0,1)，可以用sigmoid。
ReLU 缺点是负数梯度为0，在实践中无影响，因为有足够多z>0的节点，保证ReLU的梯度存在。
可用 leaky ReLU 修正。

3.7 为什么需要非线性的激活函数

这样输出就是输入的线性组合。
回归问题的输出层，可以用线性激活函数。若非负，也可以用ReLU代替。
和压缩有关的一些非常特殊的情况，会在隐藏层用输出函数。

3.8 激活函数的导数

sigmoid函数的导数是 $σ(z)(˙1−σ(z))\sigma(z)\dot(1-\sigma(z))$ 。
tanh函数的导数是 $1-tanh^2(z)$ 。
对于sigmoid 和 tanh 函数，当z非常大时，导数趋于零。
ReLU函数的导数是 $(0 i f z < 0) (1 i f z > 0)$
Leaky ReLU函数的导数是 $(0.01 i f z < 0) (1 i f z > 0)$

3.9 神经网络中的梯度下降法

？？？没太看懂
用np.sum(dz,axis=1,keepdim=True), keepdim防止将维度降至奇怪的(n,)用np.sum(dz,axis=1,keepdim=True), keepdim防止将维度降至奇怪的(n,)

3.10 直观理解反向传播

从误差函数开始，求每个参数对误差函数的导数。
？？？没有学完

3.11 随机初始化

如果将所有参数w初始为0，反向传播将失效。
因为同层的隐藏单元做同样的事情。
w_1=np.random.randn((2,2))*0.01
b_1=np.zeros((2,1))
通常把权重矩阵w初始化成一个非常小的数，因为当用sigmoid激活函数时，可以获得较大梯度值。
如果网络中没有sigmoid激活函数，则可以用较大数初始化w。
当神经网络很深的时候，会选用0.01之外的常数。

第四周深层神经网络

4.1 深层神经网络

神经网络的层数只算隐藏层，不算输出层。
$L$ ：表示层数
$n^{[L]}$ ：表示每层的节点数
$a^{[L]}$ ：表示每层的激活函数
$x=a^{[0]}：$ 表示输入特征

4.2 深层网络中的前向传播

和浅层前向传播一样，每一层的节点用向量化技术（矩阵）技术，层到层之间只能用for循环。

4.3 核对矩阵的维数

debug时，在纸上写一遍算法中所以矩阵的维数
$dw^{[l]}=w^{[l]}=(n^{[l]},n^{[l-1]})$
$db^{[l]}=b^{[l]}=(n^{[l]},1)$
$z^{[l]}=a^{[l]}=(n^{[l]},1)$ 未使用向量化技术
$Z^{[l]}=A^{[l]}=(n^{[l]},m)$ 使用向量化技术，m是样本个数
$dZ^{[l]}=dA^{[l]}=(n^{[l]},m)$

4.4 为什么使用深层表示

人脸识别中：

第一层可以是特征检测器，或边缘检测器，每一个单元对应不同方向的边缘。
第二层可以识别各个器官，每一个单元对应眼睛，嘴巴，鼻子等等。
第三层把这些不同的器官放到一起，就组成了不同的人脸。

语音识别：

第一层探测低层次的音频波形的特征，比如音调变高低，白噪声还是吱吱声。
第二层探测声位，比如a,i,o…第二层探测声位，比如a,i,o…
第三层可以识别单词，第四层识别词组…知道完整的句子

电路理论：浅层需要指数级 $2^n$ 的节点，深层需要 $l o g (n)$
遇到一个问题时，从浅层开始，把层数当成一个参数或者超参数调试。

4.5 搭建深层神经网络块

前向传播：
输入： $A^{[l-1]}$
输出： $A^{[l]}$
后向传播：
输入： $dA^{[l]}$ ， $Z^{[l]}$
输出： $dA^{[l-1]}$
计算前向传播时，把 $Z^{[l]}$ 缓存起来
如图所示

4.6 前向和反向传播

没有看完

Forward propagation:
Input $a^{[l-1]}$
Output $a^{[l]}$ ,cache( $z^{[l]}$ )
Backward propagation:
Input $da^{[l]}$
Output $da^{[l-1]}$ , $dW^{[l]}$ , $db^{[l]}$

4.7 参数 VS 超参数

参数： $W 1, b 1, W 2, b 2 . . .$
超参数：
学习率： $α\alpha$
迭代循环次数：
隐藏层数： $L$
隐藏单元数： $n^{[l]}$
激活函数：
在下周课程中会系统的讲解超参数的设置。
最优超参数是会变得，随着GPU或者其他。

4.8 这和大脑有什么关系

这种类比已经落后了，少说…

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。