1.Aggregation概论
1.1 引言
三个臭皮匠,顶个诸葛亮。
假设我们有多个预测模型g1,g2...gT,能不能将这些模型组合起来,获得更好的性能?回想一下,之前我们Validation:是在多个模型中选择出一个好的模型,现在问题变成了:多个模型组合出一个更好的模型。
能不能呢?我们从直观上来看:
我们组合是有效果的。
1.2 这么多g是怎么获得的?
如果使用H1,H2...HT,那么aggregation算法的模型复杂度则≥complexity(∪Tt=1Ht)
1.3 为什么aggregation可以起作用?
最终采用如下形式:
G(x)=1T∑t=1Tgt(x)
假设我们试图预测的真实函数为f(x),那么每一个g都可以表示为:
gt(x)=f(x)+ϵt(x)
则G的预测的平方和误差的期望是:
E[(G−f(x))2]=E[(1T∑t=1Tϵt(x))2]
,假设误差的均值是0,且不具有相关性,即
E[ϵt(x)]=0,E[ϵt(x)ϵu(x)]=0
则有
E[G(

本文深入探讨了集成算法中的Bagging方法,通过Bootstrap Aggregation(bagging)来减少模型的Variance。同时介绍了决策树CART的原理,包括如何进行分支、何时停止分支以及CART剪枝的正则化过程。接着,文章阐述了随机森林如何结合Bagging和决策树的优点,通过随机选取属性和OOB(out-of-bag)数据进行特征选择和性能评估。
最低0.47元/天 解锁文章
3147

被折叠的 条评论
为什么被折叠?



