02.改善深层神经网络：超参数调试、正则化以及优化 —— week3 超参数调试、Batch 正则化和程序框架

本文链接：https://blog.youkuaiyun.com/iCode_girl/article/details/87999357

1. 超参数调试处理

在机器学习领域，超参数比较少的情况下，我们之前利用设置网格点的方式来调试超参数；
但在深度学习领域，超参数较多的情况下，不是设置规则的网格点，而是随机选择点进行调试。这样做是因为在我们处理问题的时候，是无法知道哪个超参数是更重要的，所以随机的方式去测试超参数点的性能，更为合理，这样可以探究更超参数的潜在价值。

2. 为超参数选择合适的标尺

上节讲到在超参数范围中随机取值可以提升搜索效率，但随机取值并不是说在有效值范围内的随机均匀取值，而是为超参数选择合适的标尺。

在考虑范围内随机均匀取值的例子：要选取隐藏单元的数量 $n^{[l]}$ ，在[50, 100]的范围内随机取值；比如要选取神经网络的层数L，在[2, 4]范围内随机均匀取值。
在这里插入图片描述
但这种方式对某些参数不合理。

比如超参数学习速率 $\alpha$ ，取值范围[0.0001, 1]，在其中随机均匀取值，那么90%的数值将会落在 0.1 到 1 之间，而0.001 到 0.1 之间只有10%。相比较，用对数标尺搜索超参数的方式更合理，在对数轴上均匀随机取点，在0.001到0.1之间就会有更多的搜索资源可用。

通常如果你在 $10^a$ 和 $10^b$ 之间取值，那么在[a, b]区间随机均匀取值r，设置 $\alpha=10^r$ 。
在这里插入图片描述
最后以指数加权平均的超参数 $\beta$ 为例，假设取值范围是[0.999, 0.9]，如果在该区间内随机均匀取值也是不合理的。考虑 $1-\beta∈[0.001, 0.1]$ ，在[-3， -1]范围里随机均匀的取值 $r$ ，则 $1-\beta=10^r \Rightarrow\beta=1-10^r$ 。
在这里插入图片描述
为什么在上个例子中用线性轴取值不合理？因为当 $\beta$ 接近于1时，即使 $\beta$ 有微小的变化，所得结果的灵敏度也会变化。如果 $\beta$ 在0.9000到0.9005之间取值，对结果几乎没有影响。但如果 $\beta$ 在0.999到0.9995之间取值，会对结果产生巨大影响。因为第一种情况是根据大概10个值取平均，第二种是1000或2000个值取平均（根据公式 $\frac{1}{1-\beta}$ ）。 $\beta$ 接近1时，细微的变化会影响结果，因此需要更加密集地在该区间内取值。