机器学习中的集成学习与降维技术
集成学习相关内容
在机器学习中,集成学习是一种强大的技术。不过,Scikit - Learn 并不直接支持堆叠集成,但我们可以自己实现,也可以使用像 brew(https://github.com/viisar/brew)这样的开源实现。
下面是一些相关的练习题,能帮助我们更好地理解集成学习:
1. 模型组合问题 :如果在相同的训练数据上训练了五个不同的模型,且它们的精度都达到了 95%,是否可以将这些模型组合起来以获得更好的结果呢?如果可以,该怎么做?如果不行,原因是什么?
2. 硬投票和软投票分类器的区别 :硬投票分类器根据多数表决来确定最终类别,而软投票分类器则会考虑每个分类器的概率输出,然后根据概率总和来确定最终类别。
3. 分布式训练问题 :是否可以通过在多个服务器上分布训练来加速装袋集成的训练?对于粘贴集成、提升集成、随机森林或堆叠集成呢?
- 装袋集成和随机森林通常可以通过分布式训练加速,因为它们的各个基模型可以独立训练。
- 粘贴集成与装袋集成类似,也有一定的分布式训练加速潜力。
- 提升集成由于基模型之间存在依赖关系,分布式训练加速相对困难。
- 堆叠集成的分布式训练也较为复杂,因为涉及到多个层次的模型训练。
4. 包外评估的好处 :包外评估可以在不使用额外验证集的情况下对模型进行评估,利用了装袋过程中未被选中的数据,提供了对模型泛化能力的无偏估计。
5. Extra - Trees 与随机森林
超级会员免费看
订阅专栏 解锁全文
1704

被折叠的 条评论
为什么被折叠?



