- 集成学习概念
集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。
弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error
rate < 0.5); - 个体学习器概念
单个独立的基学习器 - boosting bagging
Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数
据集上通过有放回的抽样的方式,重新选择出S个新数据集来分别训练S个分类器
的集成技术。也就是说这些模型的训练数据中允许存在重复数据
提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它
每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预
测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient
boosting) - 结合策略(平均法,投票法,学习法)
- 随机森林思想
原理同bagging,基于信息熵/信息增益来做决策 - 随机森林的推广
Extra Tree
Totally Random Trees Embedding(TRTE)
Isolation Forest - 优缺点
RF的主要优点:
由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高
的训练性能;
可以给出各个特征的重要性列表
由于存在随机抽样,训练出来的模型方差小,泛化能力强
RF的主要缺点:
在某些噪音比较大的特征上,RF模型容易陷入过拟合 - sklearn参数2
参数 RandomForestClassifier RandomForestRegressor
criterion 指定划分标准,默认为gini,不支持其它参数 指定划分标准,可选”mse”和”mae”; 默认mse
loss 不支持
指定误差的计算方式,可选参数”linear”, “square”, “expon
随机森林算法梳理 任务一
最新推荐文章于 2024-10-29 11:23:35 发布