机器学习之集成学习-概述篇(一)
一、集成学习概述
集成学习:通过构建并结合多个学习器来完成学习任务,有时也被称为分类系统、基于委员会的学习等(引自周志华《机器学习》,俗称西瓜书)。
通俗解释:将多个模型组合在一起,从而产生更强大的的模型,即团结就是力量。
集成学习示意图
集成分为同质和异质,同质集成中的个体学习器称为基学习器,算法称为基学习算法,即集成中只包含同类型的算法,例如:只包含决策树。
异质集成中的个体学习器称为组件学习器,由不同算法组成,例如:同时包含决策树和神经网络。
二、集成学习特点
泛化性。多学习器结合,能获得比单一学习器显著优越的泛化性能。
准确性。要想获得好的集成,个体学习器应好而不同,即个体学习器要有一定的准确性,即学习器不能太坏,并且要有多样性,即学习器间具有差异。
假设集成通过简单投票法给T个分类器,则有超过半数的基分类器正确,则集成分类正确。集成分类器公式如下:
H ( x ) = s i g n ( ∑ i = 1 T h i ( x ) ) H(x)=sign(\sum_{i=1}^{T}h_{i}(x)) H(x)=sign(∑i=1Thi(x))
假设集成分类器的个体分类器的错误率相互独立,服从二项分布,即:做了T次独立重复实验,每次错误率为p,则每次正确的概率为:
P ( X = k ) = ( n k ) ( 1 − p ) k ( p ) n − k P(X=k)=\binom{n}{k}(1-p)^{k}(p)^{n-k} P(X=k)=(kn)(1−p)k(p)n−k
假定T次实验中一半以上都正确,集成分类器正确,则由Hoeffding(霍夫丁不等式,见下文知识拓展)可知,集成的错误率为:
P ( H ( x ) ≠ f ( x ) ) = ∑ k = 0 ⌊ T / 2 ⌋ ( T k ) ( 1 − p ) k p T − k ≤ e x p ( − 1 2 T ( 1 − 2 p ) 2 ) P(H(x)≠f(x))= \sum_{k=0}^{\left \lfloor T/2 \right \rfloor} \binom{T}{k}(1-p)^{k}p^{T-k}\le exp(-\frac{1}{2}T(1-2p)^{2}) P(H(x)=f(x))=∑k=0⌊T/2⌋(kT)(1−p)kpT−k≤exp(−21T(1−2p)2)
说明:需要保证一半以上分类器正确,集成分类才算正确,因此最少取floor(T/2)+1个分类器,并求和。
在集成分类器正确的情况下,由霍夫丁不等式知,随着集成个体分类器数目T增大,集成错误率将呈指数下降,最终趋于零。
e x p ( − 1 2 T ( 1 − 2 p ) 2 ) exp(-\frac{1}{2}T(1-2p)^{2}) exp(−21T(1−2p)2)
说明:上述表达式是错误率的上限值,且为递减函数,随着T增大函数值逐渐减小。
结论:通常基学习器误差不会相互独立,个体学习器的准确性与多样性本身存在冲突。准确性高,多样性就低。
好而不同的个体学习器是集成学习的研究核心。
三、集成学习分类
强依赖关系:个体学习器间必须串行生成序列化方法,代表:Boosting。它是一种将弱学习器提升为强学习器的算法,
最终得到一组基学习器的加权结合。
非强依赖关系:个体学习器间可同时生成的并行方法,代表Bagging和随机森林(Random Forest)。Bagging指
的是随机采样出训练集,基于训练集训练出基学习器,并通过投票或者平均得到预测结果的方式。随机森林是以决策
树为学习器构建Bagging基础基础上,进一步在决策树的训练中引入随机属性选择。
四、知识拓展
在概率论中,马尔科夫不等式、霍夫丁不等式和詹森不等式,是机器学习中经常用到的不等式。
1、马尔科夫不等式(Markov’s Inequality)
公式:
p
(
x
>
a
)
<
=
E
(
x
)
a
p(x>a)<=\frac{E(x)}{a}
p(x>a)<=aE(x)
应用说明:用于估计一个概率的上界,比如你所在班级的数学平均分是60,那么随机选一个学生,其成绩超过的90的概率,不会超过60/90=2/3。
2、霍夫丁不等式(Hoeffding’s Inequality)
公式:
p ( s n − E ( s n ) > = t ) < = e x p − 2 t 2 ∑ n i ( b i − a i ) 2 p(s_{n} -E(s_{n})>=t)<=exp{-\frac{2t^{2}}{\sum_{n}^{i} (b^{i}-a^{i})^{2}}} p(sn−E(sn)>=t)<=exp−∑ni(bi−ai)22t2
马尔科夫不等式与霍夫丁引理可以推导出霍夫丁不等式。
应用说明:霍夫丁不等式给出了随机变量的和与其期望值偏差的概率上限,一般用于二分类问题的泛化误差上界。
3、詹森不等式(Jensen’s Inequality)
公式:
E ( f ( x ) ) > = f ( E ( x ) ) E(f(x))>=f(E(x)) E(f(x))>=f(E(x))
应用说明:EM算法、KL散度、改进迭代尺度算法。
以上公式证明后续单独进行证明。