集成算法与随机森林
目的:让机器学习效果更好,一个人决策树效果不够,那就一群树。
Bagging
训练多个分类器取均值
全称:Bootstrap aggregation(并行训练一堆分类器(树))
最典型代表:随机森林
随机:数据采样随机,特征选择随机。
森林:很多个决策树并行放在一起,同时处理。
同一个数据集构造3个树
数据随机:选60%数据,有放回的。ABC都如此(随机选择)
特征随机:选60%特征,有放回的。ABC都如此(特征随机)
由于数据特征的二重随机性,使得每个树基本都不太一样,结果也不相同。之所以要进行随机,是多重树不同的切割结果,能够保证一定的泛化能力。
随机森林优势
1.能够处理很高维(很多特征)的数据,并且无需进行特征选择;
2.训练结束后,能够告知我们哪个特征更重要;
3.容易做成并行方法,速度较快;
4.可进行可视化演示,易于分析。
Q:如何做到分析哪个特征