机器学习中的集成学习与支持向量机技术解析
1. 集成学习概述
在机器学习领域,将大量有噪声的“预测器”聚合为一个更强的分类器是一个重要的研究方向。很多时候,不同的特征与因变量之间都存在微弱的相关性,那么如何将这些特征组合成一个更强的分类器呢?集成学习就是这样一种策略,它将多个不同的分类器组合成一个预测单元。
比如朴素贝叶斯方法,它将每个特征作为一个相对较弱的分类器,然后将它们的结果相乘。线性/逻辑回归也有类似的思路,它为每个特征分配一个权重,以最大化集成的预测能力。但更普遍的是,集成学习围绕投票的思想展开。决策树通过在随机子集上构建成百上千个树,其整体表现会更强大,这体现了群体智慧,即多样化的思维胜过个体的专业知识。
2. 分类器投票
在使用多个分类器时,最自然的方式是给每个分类器一票,然后取多数标签。但每个分类器是否应该获得相同的投票权呢?下面通过一个例子来说明:
| Item/voter | V1 | V2 | V3 | V4 | V5 | Majority | Best weights |
| — | — | — | — | — | — | — | — |
| A | * | * | * | * | * | * | |
| B | * | * | * | * | * | * | |
| C | * | * | * | * | * | * | |
| D | * | * | * | | | | |
| E | * | * | * | | | | |
| % correct | 80% | 60% | 60% | 60% | 60% | 60% | 100% |
|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



