开课吧算法工程师高级深度学习视频

最新推荐文章于 2025-12-05 17:02:52 发布

原创

最新推荐文章于 2025-12-05 17:02:52 发布 · 216 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了超参数的概念，包括模型结构参数和优化参数，如学习率、batch_size、dropout等，并提供了各参数的推荐值。讨论了不同超参数的重要性，强调了学习率和batch_size的影响。同时，概述了三种超参数调优策略：网格搜索、随机搜索和贝叶斯优化，分析了它们的优缺点。作者建议根据超参数数量选择合适的调优方法，并给出了实际操作中的经验和建议。

超参数一览

1. 超参数是什么？

参数：需要训练，指的是模型训练中的权重参数和 bias 参数。

超参数：不需要训练，需要在训练前进行指定，并不断调整。

其实就很多超参数来说，调整的意义并不大，毕竟往往网络的超参数多达几十个，要是都精调的话，那岂不是得 gg，因此往往是对重要参数精调，对次要参数粗调。

此外，很多 Trick 往往需要一些其他的超参数，对于这部分参数，往往我会遵循原论文，适当的调一调就行。毕竟，Trick 无穷尽呀。

2. 网络结构参数

网络参数指的是你自己构建网络结构时的相关参数，如卷积核数量，网络层数等

CNN 网络参数

超参数说明推荐值

2. 优化参数

优化参数指的是反向传播中所涉及到的参数，主要包括：学习率， batch_size，对应优化器参数，损失函数参数等。

附件：https://pan.baidu.com/s/1IyHq7f7m-JnIhZSQu7K_Rg?pwd=rezs

常见参数

超参数说明推荐值

2. 几个重要的超参数

1. 学习率 -- 最重要的超参数

学习率直接控制着梯度更新时的量级，从而直接影响模型的优化与最终的有效容量。幸运的是，对于学习率的设置，已经有一套行之可效的指导方案了，针对不同的优化器，有不同的设置区间。

如果是微调，那么学习率要降低两个数量级左右（参考 Bert 的 adam 学习率)

优化器设置范围

2. batch size

一般情况下， batch size 我往往会以 128 为起点，上下调整，注意，batch size 要设置为 2 的幂次方，范围在 [1, 1024] 之间。

此外，需要一提的是 Batch Normalization 与 batch size 息息相关，如果你使用了 Batch Normalization，那么 batch size 就不能设的太小，这点我在 Normalizatio

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。