在机器学习中,超参数是模型训练过程中需要提前设定的参数,不会通过模型训练自动调整。以下是一些常见的超参数:
-
学习率 (Learning Rate):
- 决定每次更新模型参数时的步长。学习率过大会导致模型在最优值附近震荡,学习率过小则会导致收敛速度过慢。
-
批量大小 (Batch Size):
- 在一次迭代中使用的训练样本数量。小批量可以减少内存占用,但可能导致训练时间较长;大批量可以提高训练效率,但需要更多的内存。
-
迭代次数 (Number of Epochs):
- 完整训练集被训练的次数。过多的迭代次数可能导致过拟合,过少的迭代次数可能导致欠拟合。
-
正则化参数 (Regularization Parameter):
- 用于控制模型复杂度,防止过拟合。常见的正则化方法包括L1正则化和L2正则化。
-
隐藏层数及神经元数量 (Number of Hidden Layers and Neurons):
- 决定神经网络的结构。更多的隐藏层和神经元可以提升模型的表达能力,但也增加了计算复杂度和过拟合的风险。
-
激活函数 (Activation Function):
- 决定每个神经元输出的形式。常见的激活函数有ReLU、Sigmoid和Tanh。
-
优化器 (Optimizer):
- 用于调整模型参数以最小化损失函数。常见的优化器有SGD、Adam、RMSprop等。
-
丢弃率 (Dropout Rate):
- 防止过拟合的一种方法,通过在训练过程中随机丢弃一部分神经元。常用的丢弃率为0.5。
-
权重初始化方法 (Weight Initialization Method):
- 决定模型初始权重的设置。常见的方法有Xavier初始化和He初始化。
-
动量 (Momentum):
- 用于加速梯度下降算法的收敛速度,减少训练中的震荡。动量参数通常在0到1之间,常见的取值是0.9。
-
权重衰减 (Weight Decay):
- 类似于正则化参数,用于防止过拟合,常用于优化器中,如AdamW。
-
学习率调度 (Learning Rate Scheduler):
- 动态调整学习率的方法。常见的调度策略有学习率衰减、余弦退火等。
-
最大池化窗口大小 (Max Pooling Window Size):
- 在卷积神经网络中,用于最大池化层的窗口大小,常见值如2x2。
-
卷积核大小 (Convolution Kernel Size):
- 决定卷积层中卷积核的大小,如3x3或5x5。
-
层数 (Number of Layers):
- 决定神经网络的深度,更多的层数通常表示更复杂的模型。
-
跳跃连接 (Skip Connections):
- 在深度神经网络中用于解决梯度消失问题,如ResNet中的残差连接。
-
批归一化 (Batch Normalization):
- 用于加速训练过程和稳定模型,防止梯度爆炸或消失。
-
早停 (Early Stopping):
- 在验证集上的性能不再提高时提前停止训练,以防止过拟合。
-
梯度裁剪 (Gradient Clipping):
- 在训练中防止梯度爆炸,通过限制梯度的最大值。
-
Embedding 维度 (Embedding Dimension):
- 在自然语言处理中,用于词嵌入的向量维度。
-
LSTM/GRU单元数 (Number of LSTM/GRU Units):
- 在循环神经网络中,用于记忆单元的数量。
-
序列长度 (Sequence Length):
- 在处理序列数据时,每次输入序列的长度。
-
窗口大小 (Window Size):
- 在滑动窗口技术中,窗口的大小,如时间序列分析中的窗口大小。
-
稀疏性参数 (Sparsity Parameter):
- 在稀疏自编码器中控制输出的稀疏性。
-
目标分布的平滑参数 (Label Smoothing):
- 用于防止模型过度自信,通过对目标分布进行平滑处理。
-
梯度累积步数 (Gradient Accumulation Steps):
- 在内存受限的情况下,通过累积多个小批量的梯度再进行一次参数更新。
-
Drop Connect 概率 (Drop Connect Probability):
- 类似于Dropout,但用于连接而不是节点。
-
扩展卷积率 (Dilation Rate):
- 在扩展卷积中使用,增加感受野而不增加计算量。
-
位置编码维度 (Positional Encoding Dimension):
- 在Transformer模型中,用于编码位置信息的向量维度。
-
训练集增强参数 (Data Augmentation Parameters):
- 包括旋转、缩放、平移等,用于生成更多的训练数据。
-
注意力头数 (Number of Attention Heads):
- 在多头注意力机制中,注意力头的数量。
-
对比学习温度 (Contrastive Learning Temperature):
- 在对比学习中控制温度参数,用于缩放相似度分数。
-
图卷积层数 (Number of Graph Convolution Layers):
- 在图神经网络中,图卷积层的数量。
-
正则化惩罚项 (Regularization Penalty Term):
- 用于调节模型复杂度的惩罚项权重,如Lasso中的L1惩罚。
-
特征选择阈值 (Feature Selection Threshold):
- 用于选择重要特征的阈值参数。
机器学习超参数详解
9万+

被折叠的 条评论
为什么被折叠?



