吴恩达深度学习——超参数调试

内容来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。

超参数调试

调试

目前学习的一些超参数有学习率 α \alpha α(最重要)、动量梯度下降法 β \beta β(次重要)、Adam优化算法 β 1 \beta_1 β1 β 2 \beta_2 β2 ϵ \epsilon ϵ(这三个参数一般默认)、层数layers(次次重要)、不同层中的隐藏单元数量hidden units(次重要)、学习率衰减learning rate decay(次次重要)、小批量大小mini-batch size(次重要)。在这里插入图片描述

对于超参数的取值,如果有两个超参数,可以画一个网格,然后随机取值;如果有三个超参数,画一个立方体随机取值。

另外,可以从粗到细取值。在某个范围内取的超参数明显比周围的效果要好,那么可以在这个范围内细分取值。

在这里插入图片描述
在这里插入图片描述

选择范围

在这里插入图片描述

假设学习率在0.0001~1之间,那么不应该随机均匀取值,否则大部分数据落在0.1~1上,因此,使用对数标尺搜索超参数。 0.0001 = 1 0 − 4 , 1 = 1 0 0 , r ∈ [ − 4 , 0 ] 0.0001=10^{-4},1=10^0,r\in[-4,0] 0.0001=104,1=100,r[4,0]。在 r r r的范围内随机取值,然后使用对数重新映射到对数标尺上。

Batch归一化

在这里插入图片描述
对于单层神经网络,对参数 x x x归一化,可以方便算法优化。
在这里插入图片描述
对于多层神经网络比如 w [ 3 ] w^{[3]} w[3],是否可以对参数 a [ 2 ] a^{[2]} a[2]归一化? a [ 2 ] a^{[2]} a[2]来自于 z [ 2 ] z^{[2]} z[2],所以对 z [ 2 ] z^{[2]} z[2]进行归一化,称为Batch归一化。

公式

  1. 计算均值:对于给定的mini - batch数据(以神经网络某层输入 z ( 1 ) , z ( 2 ) , ⋯   , z ( m ) z^{(1)}, z^{(2)}, \cdots, z^{(m)} z(1),z(2),,z(m)为例, m m m是mini - batch大小),计算其均值 μ \mu μ μ = 1 m ∑ i = 1 m z ( i ) \mu=\frac{1}{m}\sum_{i = 1}^{m}z^{(i)} μ=
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值