深度学习中常见的超参数

@清雅绝尘

已于 2025-03-19 15:29:55 修改

阅读量894

点赞数 9

分类专栏： python AI 文章标签： python ai

于 2025-03-19 15:28:37 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45560461/article/details/146372085

版权

7 篇文章

订阅专栏

5 篇文章

订阅专栏

网络深度（层数）
- 作用：决定模型的表达能力（如ResNet的层数从18到152）。
- 调整：层数越多，模型越复杂，但可能导致梯度消失或过拟合。
每层神经元/通道数
- 作用：控制每层的容量（如全连接层的512、1024；CNN的64、128通道）。
激活函数
- 常见选择：ReLU（通用）、LeakyReLU（解决神经元死亡）、Softmax（分类输出）、Sigmoid（二分类/回归输出）。
- 注意：输出层激活函数需与任务匹配（如分类用Softmax）。
卷积核大小
- 典型值：3x3（CNN常用）、1x1（通道调整）、5x5（更大感受野）。
RNN/Transformer参数
- RNN：隐藏层维度（如256）、时间步数（序列长度）。
- Transformer：头数（Multi-Head Attention）、位置编码方式。

学习率（Learning Rate, LR）
- 作用：控制参数更新的步长，直接影响收敛速度和稳定性。
- 典型值：Adam常用初始LR为1e-3_{1e-5；SGD可能更大（0.1}0.001）。
批量大小（Batch Size）
- 作用：影响梯度估计的方差和内存占用。
- 调整：通常设置为2的幂次（如32、64），大Batch需配合更大的LR或预热（Warmup）。
优化器类型
- SGD：需调动量（Momentum，常用0.9）。
- Adam：需调β₁（0.9）、β₂（0.999）、ε（1e-8）。
- RMSProp：需调衰减率（Decay Rate）。
梯度裁剪（Gradient Clipping）
- 阈值：如1.0或5.0，防止梯度爆炸（常见于RNN）。

分类任务
- 类别权重：处理类别不平衡（如加权交叉熵）。
- 标签平滑（Label Smoothing）：如设置ε=0.1，防止模型过度自信。
回归任务
- 损失函数选择：MSE（均方误差）、MAE（平均绝对误差）、Huber损失（鲁棒性）。
自定义损失参数
- 如目标检测中的Focal Loss（调节难易样本权重）。

超参数搜索方法
- 网格搜索：适用于少量参数（如学习率+Dropout组合）。
- 随机搜索：更高效，适合高维空间。
- 贝叶斯优化：利用历史结果指导搜索（如Hyperopt）。
参数敏感性分析
- 对关键参数（如学习率）进行对数空间采样（如[1e-5, 1e-4, 1e-3]）。