一、决策树(Decision Tree)
- 最大深度(max_depth)
- 含义:决策树的最大深度,它限制了树的生长规模。
- 调参经验:如果树太浅,模型可能会欠拟合,无法很好地捕捉数据中的复杂关系。如果树太深,可能会导致过拟合,模型在训练集上表现很好,但在测试集上性能下降。一般可以从较小的值(如 3 - 5)开始尝试,逐步增加,观察模型在验证集上的性能变化。例如,对于一个简单的二分类数据集,先将
max_depth设为 3,看准确率等指标,如果准确率较低且有提升空间,再尝试增加到 5 等。
- 最小样本分割(min_samples_split)
- 含义:一个节点在被分割之前必须包含的最小样本数。
- 调参经验:如果这个值设置得过大,树的生长会受到限制,可能导致欠拟合。如果设置得过小,可能会使树过于复杂,容易过拟合。通常可以从默认值(一般是 2)开始调整,逐步增加,如设置为 5、10 等,观察模型性能。
- 最小样本叶节点(min_samples_leaf)
- 含义:叶节点必须包含的最小样本数。
- 调参经验:和
min_samples_split类似,较小的值可能会使树更复杂,容易过拟合。一般可以根据数据规模来设置,例如对于较小的数据集,可以设置为 1 - 5,对于较大的数据集可以适当增大这个值。
二、随机森林(Random Forest)
- 决策树数量(n_estimators)
- 含义:森林中决策树的数量。
- 调参经验:更多的树通常会使模型更稳定,减少方差,但也会增加计算成本和训练时间。一般可以从一个较小的数(如 100)开始,逐步增加,观察模型性能的变化。例如,每次增加 50 棵树,观察验证集上的准确率、召回率等指标是否有提升。当增加树的数量对性能提升不大时,就可以停止增加。
- 最大特征数(max_features)
- 含义:在构建每棵决策树时,用于寻找最佳分割点的最大特征数量。
- 调参经验:如果设置为 “auto”,则会使用特征总数的平方根作为最大特征数。可以尝试不同的值,如 “log2”(以 2 为底的对数特征数)、特征总数的 1/3 等。较小的值可以降低模型的方差,但可能会增加偏差。
- 其他决策树相关参数
- 随机森林中的决策树部分也可以调参,如
max_depth、min_samples_split和min_samples_leaf等,调参方法和决策树类似。
- 随机森林中的决策树部分也可以调参,如
三、支持向量机(Support Vector Machine,SVM)
- 惩罚参数(C)
- 含义:C 是惩罚系数,用于控制对错误分类样本的惩罚程度。
- 调参经验:较大的 C 会使模型更关注正确分类每个训练样本,可能导致过拟合。较小的 C 会使模型更容忍错误分类,可能导致欠拟合。可以使用对数尺度来尝试不同的值,如等,观察模型在验证集上的准确率和召回率的平衡情况。
- 核函数(kernel)及其参数
- 含义:核函数用于将低维数据映射到高维空间,使得数据在高维空间中更容易线性可分。常用的核函数有线性核(
linear)、多项式核(poly)、径向基函数核(rbf)等。 - 调参经验:
- 对于线性核,没有额外的核参数需要调整。如果数据在原始特征空间中看起来线性可分,或者特征数量非常多,可以先尝试线性核。
- 对于多项式核,需要调整多项式的次数(
degree)等参数。较高的次数可能会使模型更复杂,容易过拟合。一般可以从 2 - 3 开始尝试。 - 对于径向基函数核,需要调整
gamma参数。gamma决定了数据映射到高维空间后的分布情况。较大的gamma会使模型更关注局部数据,可能导致过拟合,较小的gamma会使模型更平滑,可能导致欠拟合。可以尝试不同的值,如等。
- 含义:核函数用于将低维数据映射到高维空间,使得数据在高维空间中更容易线性可分。常用的核函数有线性核(
四、逻辑回归(Logistic Regression)
- 正则化参数(C)
- 含义:在逻辑回归中,C 和 SVM 中的惩罚系数类似,用于控制正则化强度。,其中是正则化系数。
- 调参经验:较小的 C 会导致较强的正则化,系数会更接近 0,可能导致欠拟合。较大的 C 会导致较弱的正则化,模型可能会过拟合。可以从

最低0.47元/天 解锁文章
1109

被折叠的 条评论
为什么被折叠?



