基于树的机器学习模型:集成学习与模型堆叠
在机器学习领域,为了提升模型的泛化性能,常常会使用集成学习的方法。其中,集成的集成(Ensemble of ensembles),也被称为模型堆叠(model stacking),是一种将不同分类器组合成一个元分类器(meta - classifier)的有效策略,其泛化性能优于单个分类器。
1. 集成学习的两种方式
集成学习主要有以下两种方式:
- 不同类型分类器的集成 :将不同类型的分类器(如逻辑回归、决策树、随机森林等)应用于相同的训练数据,然后根据问题类型(分类或回归),通过多数投票或求平均值的方式组合结果。
- 单一类型分类器在不同自助样本上的集成 :从训练数据中抽取自助样本,每次在抽取的样本上分别拟合模型(如决策树、随机森林等),最后将所有结果组合成一个集成。这种方法适用于处理高度灵活的模型,通过减少方差来提高性能。
2. 不同类型分类器的集成方法
不同类型分类器的集成可以通过以下三种方法实现:
- 多数投票或平均 :对于分类问题,使用简单的众数函数选择出现次数最多的类别;对于回归问题,计算平均值并与实际值进行比较。
- 元分类器应用于结果 :从各个分类器预测实际结果(0 或 1),然后在这些 0 和 1 上应用元分类器。但这种方法的元分类器可能比较脆弱和僵化,因为 0 和 1 只给出了结果,而没有提供确切的敏感性(如概率)。
- 元分类器应用于概率 :从各个分类器获
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



