吴恩达改善深层神经网络参数：超参数调试、正则化以及优化——超参数调试、batch正则化和程序框架

最新推荐文章于 2022-04-29 22:09:07 发布

原创最新推荐文章于 2022-04-29 22:09:07 发布 · 249 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

神经网络与深度学习专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了深度学习中超参数的调试策略，包括节点个数、网络层数及学习率等的随机取值方法。同时，深入探讨了BatchNorm在加速学习和减少参数依赖方面的应用，以及其在神经网络中的实现细节。

调试处理

一般情况下，需要调试的超参数顺序：
在这里插入图片描述
怎样调试：
在一个范围内，随机取值

先大范围随机取值，然后局部取值

为超参数选择合适的范围

1.节点个数、网络层数——>随机均匀取值
在这里插入图片描述
2.α——>随机对数取值

r=-4*np.random.rand()
alpha = 10^r

3.β
在这里插入图片描述
β在接近1的时候会很敏感，可以更密集的取值

超参数的网络实践：pandas VS caviar

pandas:照料一个模型，观察他的表现啊，耐心的调试学习率，但通常因为没有足够的计算能力，不能在同一时间试验大量的模型时使用
train many models in parallel:同时试验多种模型，设置一些超参数，让他们运行一天或几天，你会获得他们的学习曲线，然后选择工作效果最好的那一个。
在这里插入图片描述

正则化网络的激活函数

在Logistic回归中，我们用归一化网络输入来加速学习：
在这里插入图片描述
在如下深度神经网络中，若想训练W[3],b[3]，归一化A[2] (Z[2])

在这里插入图片描述

不想让隐藏单元总是均值为0，方差为1

其中：

使用γ和β构造含有其他均值和方差的隐藏单元

batch归一化不只适用于输入层还适用于隐藏层

将batch norm拟合进神经网络

在这里插入图片描述

参数：W[1],γ[1],β[1],…,W[l].b[l],γ[l]

在tensorflow中：
tf.nn.batch_normalization

for t = 1 ......mini-batch:
	前向传播：
		X^{t}j进行前向传播，应用于每个隐藏层，将Z^[l]转换为Z~^[l]
	反向传播：
		计算dW[l],dβ[l],dγ[l]
		W[l] = W[l]-alpha*dW[l]
		β[l] = β[l] -alpha*β[l]
		γ[l] = γ[l]-alpha*γ[l]
也适用于momentum，RMSprop，Adam