What's up everybody, welcome back to my channel! hi,how are ya !
上周跟大家分享了随机森林算法的应用,这周我准备把Ensemble算法原理跟大家分享一下(有些地方会解释的不太清楚,见谅
),主要参考的是台大李宏毅教授的机器学习课程。李宏毅教授讲机器学习和深度学习课程个人认为还是非常不错的,如果各位感兴趣的话可以直接去搜索一下。
Ensemble:
字面上的意思就是团队合作,给定一组分类器(classifier),这组分类器中每一个分类器都有不同的性质属性之类的,那么借助这一组分类器可以使我们的模型发挥更强的力量。
Bagging:
不同的模型集合起来输出结果,也即是自己创造出不同的dataset进行训练
N——训练集
从N中取出N'个数据进行训练,如下图所示:

通过这几个set的学习,我们做出来的结果如果是分类问题的话那就用vote的方式来得出结果,如果是回归,就用average的方式进行得出结果。这样做的好处在于,他通常会比我们训练一个数据集一次训练的结果要好得多。
注意:当你所建立的模型很复杂的时候,担心会出现过拟合的结果时,一般要用bagging,比如说决策树算法就是一个非常容易过拟合的模型,如果在建立模型得出准确率为100%时,先不要那么开心,往往有可能都是过拟合才会出现的结果,但是随机森林就会使过拟合的概率大大降低。
袋外误差(OOB)
在用随机森林选择特征个数m时,是如何确定m的值呢,这个问题可以用袋外误差来解决

最低0.47元/天 解锁文章
2722

被折叠的 条评论
为什么被折叠?



