机器学习算法与模型的深入解析
1. 集成学习方法
1.1 装袋法(Bagging)中的袋外评估
装袋法集成中的每个预测器可以使用未参与训练的实例(即袋外实例)进行评估。这种评估方式无需额外的验证集,就能对集成模型进行较为无偏的评估。这样一来,更多的实例可用于训练,从而使集成模型的性能略有提升。
1.2 随机森林与极端随机树(Extra - Trees)
- 随机森林 :在构建决策树时,每个节点仅考虑特征的随机子集进行划分。
- 极端随机树 :与随机森林类似,但在每个特征上使用随机阈值,而不是像普通决策树那样搜索最优阈值。这种额外的随机性起到了正则化的作用,如果随机森林对训练数据过拟合,极端随机树可能表现更好。而且,由于极端随机树无需搜索最优阈值,其训练速度比随机森林快得多,但在预测时两者速度相当。
1.3 AdaBoost与梯度提升(Gradient Boosting)的优化策略
- AdaBoost :如果AdaBoost集成对训练数据欠拟合,可以尝试增加估计器的数量、减少基估计器的正则化超参数,也可以略微提高学习率。
- 梯度提升 :如果梯度提升集成对训练集过拟合,应尝试降低学习率,还可以使用早停法来确定合适的预测器数量。
2. 降维技术
2.1 降维的动机与弊端
- 动机
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



