开课吧 算法工程师高级深度学习 视频

本文介绍了超参数的概念,包括模型结构参数和优化参数,如学习率、batch_size、dropout等,并提供了各参数的推荐值。讨论了不同超参数的重要性,强调了学习率和batch_size的影响。同时,概述了三种超参数调优策略:网格搜索、随机搜索和贝叶斯优化,分析了它们的优缺点。作者建议根据超参数数量选择合适的调优方法,并给出了实际操作中的经验和建议。

超参数一览

1. 超参数是什么?

参数: 需要训练,指的是模型训练中的权重参数和 bias 参数。

超参数: 不需要训练,需要在训练前进行指定,并不断调整。

其实就很多超参数来说,调整的意义并不大,毕竟往往网络的超参数多达几十个,要是都精调的话,那岂不是得 gg, 因此往往是对重要参数精调,对次要参数粗调。

此外,很多 Trick 往往需要一些其他的超参数,对于这部分参数,往往我会遵循原论文,适当的调一调就行。毕竟,Trick 无穷尽呀。

2. 网络结构参数

网络参数指的是你自己构建网络结构时的相关参数,如卷积核数量,网络层数等

CNN 网络参数

超参数 说明 推荐值

2. 优化参数

优化参数指的是反向传播中所涉及到的参数,主要包括:学习率, batch_size, 对应优化器参数, 损失函数参数等。

附件:https://pan.baidu.com/s/1IyHq7f7m-JnIhZSQu7K_Rg?pwd=rezs 

常见参数

超参数 说明 推荐值

2. 几个重要的超参数

1. 学习率 -- 最重要的超参数

学习率直接控制着梯度更新时的量级,从而直接影响模型的优化与最终的有效容量。 幸运的是,对于学习率的设置,已经有一套行之可效的指导方案了, 针对不同的优化器,有不同的设置区间。

如果是微调,那么学习率要降低两个数量级左右(参考 Bert 的 adam 学习率)

优化器 设置范围

2. batch size

一般情况下, batch size 我往往会以 128 为起点,上下调整,注意,batch size 要设置为 2 的幂次方, 范围在 [1, 1024] 之间。

此外,需要一提的是 Batch Normalization 与 batch size 息息相关,如果你使用了 Batch Normalization, 那么 batch size 就不能设的太小, 这点我在 Normalizatio

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值