机器学习与Python入门:从基础到电影推荐引擎构建
1. 集成学习方法
1.1 装袋法(Bagging)
装袋法可以降低过拟合的可能性,不过这里暂不深入探讨,后续会有更详细的研究。
1.2 提升法(Boosting)
在监督学习中,弱学习器是指那些比基线(如随机分配类别或平均值)略好一些的学习器。就像蚂蚁一样,单个弱学习器能力有限,但它们组合起来却能发挥强大的作用。
提升法的核心思想是通过权重来考虑每个学习器的能力。在提升法中,所有模型按顺序训练,而非像装袋法那样并行训练。每个模型都在相同的数据集上训练,但每个数据样本的权重会根据前一个模型的表现进行调整。训练完一个模型后,会重新分配权重,用于下一轮训练。通常,预测错误样本的权重会增加,以凸显其预测难度。
以下是提升法的步骤说明(以分类为例):
graph LR
A[初始化样本权重] --> B[训练第一个模型]
B --> C[计算模型误差]
C --> D[更新样本权重]
D --> E{是否达到指定模型数量}
E -- 否 --> B
E -- 是 --> F[组合所有模型结果]
提升算法有很多种,主要区别在于权重分配方案。例如,在图像人脸检测中,就使用了专门的框架结合提升法。检测图像或视频中的人脸属于监督学习,我们会给学习器提供包含人脸的区域示例。由于通常不包含人脸的区域远多于包含人脸的区域(约10000倍),所以会使用一系列分类器逐步过滤掉负样本区域
超级会员免费看
订阅专栏 解锁全文
1454

被折叠的 条评论
为什么被折叠?



