- 装袋(bagging)又称自助聚集(boot strap aggregating),
是一种根据均匀分布概率从数据集最中有放回的重复抽样的技术。每个自助样本集都和原始数据集一样大,自助样本D_{i}大约包含63%的原训练数据。 - 决策树桩(decision stump)
仅基于单个特征来做决策,仅包含一层的二叉决策树
#1、随机森林
##1.1、随机森林的过程:
- 从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的样本作预测,评估其误差;
- 对于每一个节点,随机选择m个特征,根据这m个特征,计算其最佳的分裂方式。
- 每棵树都会完整成长而不会剪枝(Pruning,这有可能在建完一棵正常树状分类器后会被采用)。
- 对于新数据,经过每棵树决策,最后投票确认分到哪一类。
用N来表示训练用例(样本)的个数,M表示特征数目。
输 入 特 征 数 目 m , m 的 可 选 l o g M , M / 3 , s q r t ( M ) , M , 一 般 情 况 m < < M 输入特征数目m,m的可选logM,M/3,sqrt(M),M,一般情况m<<M 输入特征数目m,m的可选logM,M/3,sqrt(M),M,一般情况m<<M。
##1.2、随机森林的优点有:
- 比较适合做多分类问题,训练和预测速度快,在数据集上表现良好;
- 不会出现过度拟合;
- 实现简单并且容易实现并行化。
- 对训练数据的容错能力强,是一种有效地估计缺失数据的一种方法,当数据集中有大比例的数据缺失时仍然可以保持精度不变和能够有效地处理大的数据集;
- 能够处理很高维度的数据,并且不用做特征选择,即:可以处理没有删减的成千上万的变量;
- 能够在分类的过程中可以生成一个泛化误差的内部无偏估计;
- 能够在训练过程中检测到特征之间的相互影响以及特征的重要性程度;
#2、GBDT(Gradient Boosting Decision Tree)
-
算法实现过程描述:
-
损失函数及负梯度:
-
最小二乘回归树生成算法:
-
偏差方差trade-off,
单棵数深度越浅模型拟合效果越差,方差越小,偏差越大;相反,深度越深模型拟合效果越好,方差越大,偏差越小
对于Bagging算法来说,由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance) ,因为采用了相互独立的基分类器多了以后,h的值自然就会靠近.所以对于每个基分类器来说,目标就是如何降低这个偏差(bias),所以我们会采用深度很深甚至不剪枝的决策树。
对于Boosting来说,每一步我们都会在上一轮的基础上更加拟合原数据,所以可以保证偏差(bias),所以对于每个基分类器来说,问题就在于如何选择variance更小的分类器,即更简单的分类器,所以我们选择了深度很浅的决策树。
参考: http://www.jianshu.com/p/005a4e6ac775
#3、AdaBoost
两个问题 : x多维情况如何处理 2 基分类器如何确定
训练数据集为:
T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})} T=(x1,y1),(x2,y2),...,(xn,yn)
(1)、初始化训练数据的权值分布:
D 1 = ( w 11 , . . . , w 1 i , . . . , w 1 N ) , w 1 i = 1 N , i = 1 , 2 , . . . , i , . . . , N D_{1}=(w_{11},...,w_{1i},...,w_{1N}),\ w_{1i}=\frac{1}{N},\ i=1,2,...,i,...,N D1=(w11,...,w1i,...,w1N), w1i=N1, i=1,2,...,i,...,N
(2)、对 m = 1 , 2 , . . . , M m=1,2,...,M m=1,2,...,M
- (a) 、 使 用 权 值 分 布 D m 的 训 练 数 据 集 学 习 , 得 到 基 分 类 器 使用权值分布D_{m}的训练数据集学习,得到基分类器 使用权值分布Dm的训练数据集学习,得到基分类器:
G m ( x ) : χ → { − 1 , + 1 } G_{m}(x):\chi \rightarrow \{-1,+1\} Gm(x):χ→{ −1,+1}
训 练 数 据 集 可 以 根 据 权 值 分 布 D m 从 T 中 有 放 回 重 复 抽 样 训练数据集可以根据权值分布D_{m}从T中有放回重复抽样 训练数据集可以根据权值分布Dm从T中有放回重复抽样
基分类器可以用 ID3,C4.5,CART等算法得到。
- (b)、 计 算 G m ( x ) 在 数 据 集 上 的 分 类 误 差 率 : 计算G_{m}(x)在数据集上的分类误差率: 计算Gm(x)在数据集上的分类误差率:
e m = P ( G m ( x i ) ≠ y i ) = ∑ i = 1 N w m i I ( G x ( x i ) ≠ y i ) e_{m}=P\left (G_{m}(x_{i})\neq y_{i}\right )=\sum_{i=1}^{N}w_{mi}I(G_{x}(x_{i})\neq y_{i}) em=P(Gm(xi)̸=yi)=i=1∑NwmiI(Gx(xi)̸=yi)
分类误差率为分错样本的权值和。
- ©、 计 算 G m ( x ) 的 系 数 a m 计算G_{m}(x)的系数a_{m} 计算Gm(x)的系数am
a m = 1 2 l o g 1 − e m e m a_{m}=\frac{1}{2}log\frac{1-e_{m}}{e_{m}} am=21logem1−em
w m + 1 , i = w m i Z m e x p ( − a m y i G m ( x i ) ) w_{m+1,i}=\frac{w_{mi}}{Z_{m}}exp(-a_{m}y_{i}G_{m}(x_{i})) wm+1,i=Zmwmiexp(−am