超参数一览
1. 超参数是什么?
参数: 需要训练,指的是模型训练中的权重参数和 bias 参数。
超参数: 不需要训练,需要在训练前进行指定,并不断调整。
其实就很多超参数来说,调整的意义并不大,毕竟往往网络的超参数多达几十个,要是都精调的话,那岂不是得 gg, 因此往往是对重要参数精调,对次要参数粗调。
此外,很多 Trick 往往需要一些其他的超参数,对于这部分参数,往往我会遵循原论文,适当的调一调就行。毕竟,Trick 无穷尽呀。
2. 网络结构参数
网络参数指的是你自己构建网络结构时的相关参数,如卷积核数量,网络层数等
CNN 网络参数
超参数 说明 推荐值
2. 优化参数
优化参数指的是反向传播中所涉及到的参数,主要包括:学习率, batch_size, 对应优化器参数, 损失函数参数等。
附件:https://pan.baidu.com/s/1IyHq7f7m-JnIhZSQu7K_Rg?pwd=rezs
常见参数
超参数 说明 推荐值
2. 几个重要的超参数
1. 学习率 -- 最重要的超参数
学习率直接控制着梯度更新时的量级,从而直接影响模型的优化与最终的有效容量。 幸运的是,对于学习率的设置,已经有一套行之可效的指导方案了, 针对不同的优化器,有不同的设置区间。
如果是微调,那么学习率要降低两个数量级左右(参考 Bert 的 adam 学习率)
优化器 设置范围
2. batch size
一般情况下, batch size 我往往会以 128 为起点,上下调整,注意,batch size 要设置为 2 的幂次方, 范围在 [1, 1024] 之间。
此外,需要一提的是 Batch Normalization 与 batch size 息息相关,如果你使用了 Batch Normalization, 那么 batch size 就不能设的太小, 这点我在 Normalizatio

本文介绍了超参数的概念,包括模型结构参数和优化参数,如学习率、batch_size、dropout等,并提供了各参数的推荐值。讨论了不同超参数的重要性,强调了学习率和batch_size的影响。同时,概述了三种超参数调优策略:网格搜索、随机搜索和贝叶斯优化,分析了它们的优缺点。作者建议根据超参数数量选择合适的调优方法,并给出了实际操作中的经验和建议。
最低0.47元/天 解锁文章
168

被折叠的 条评论
为什么被折叠?



