机器学习中的分类器与相关技术
一、集成学习相关概念
1. 堆叠与混合
在集成学习中,堆叠和混合是两种常见的方法。堆叠和混合的主要步骤有:
1. 收集基础模型的结果。
2. 在基础模型之上创建元模型。
3. 产生最终预测。
混合与堆叠类似,但在训练下一层模型的方式上有所不同:堆叠使用折叠外预测,而混合使用验证集(例如,训练集的 10%)。
2. 自助法(Bootstrapping)
自助法是一种机器学习集成算法,用于减少监督学习中的偏差。当有一个总体时,可以从中抽取多个相同大小的样本,以确定总体的分布。但如果只有一个样本,可通过有放回抽样的方式从该样本创建多个样本,这些样本称为自助样本。由于自助样本涉及有放回抽样,所以可能包含重复项,多个自助样本之间也会有重叠值。随机森林在构建多棵树时就使用了有放回抽样。
3. 常见的提升算法
常见的提升算法大多是迭代地学习弱分类器,并将它们添加到最终的强分类器中。以下是几种知名的提升算法:
- AdaBoost :是一种机器学习分类算法,也是一种集成算法,它将弱学习器(决策树)组合成一个强学习器。它是第一个适应弱学习器的算法,使用装袋和提升方法来开发增强预测器,类似于随机森林,也涉及基尼不纯度分数和自助数据集。但与随机森林不同的是:
- AdaBoost 创建的是只有一个节点和两个叶子的树桩森林。
- 每个树桩的目的是减少其前一个树桩的误差。
- 在最终预测时,树桩的权重不同,误差较小的树桩更重要。
- 梯度提升(Grad
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



