机器学习之集成学习-概述篇(一)

机器学习之集成学习-概述篇(一)

一、集成学习概述

集成学习:通过构建并结合多个学习器来完成学习任务,有时也被称为分类系统、基于委员会的学习等(引自周志华《机器学习》,俗称西瓜书)。
通俗解释:将多个模型组合在一起,从而产生更强大的的模型,即团结就是力量。

集成学习示意图

个体学习器1
结合模块
个体学习器2
...
个体学习器n
输出
集成分为同质和异质,同质集成中的个体学习器称为基学习器,算法称为基学习算法,即集成中只包含同类型的算法,例如:只包含决策树。
异质集成中的个体学习器称为组件学习器,由不同算法组成,例如:同时包含决策树和神经网络。

二、集成学习特点

泛化性。多学习器结合,能获得比单一学习器显著优越的泛化性能。
准确性。要想获得好的集成,个体学习器应好而不同,即个体学习器要有一定的准确性,即学习器不能太坏,并且要有多样性,即学习器间具有差异。

假设集成通过简单投票法给T个分类器,则有超过半数的基分类器正确,则集成分类正确。集成分类器公式如下:

H ( x ) = s i g n ( ∑ i = 1 T h i ( x ) ) H(x)=sign(\sum_{i=1}^{T}h_{i}(x)) H(x)=sign(i=1Thi(x))

假设集成分类器的个体分类器的错误率相互独立,服从二项分布,即:做了T次独立重复实验,每次错误率为p,则每次正确的概率为:

P ( X = k ) = ( n k ) ( 1 − p ) k ( p ) n − k P(X=k)=\binom{n}{k}(1-p)^{k}(p)^{n-k} P(X=k)=(kn)(1p)k(p)nk

假定T次实验中一半以上都正确,集成分类器正确,则由Hoeffding(霍夫丁不等式,见下文知识拓展)可知,集成的错误率为:

P ( H ( x ) ≠ f ( x ) ) = ∑ k = 0 ⌊ T / 2 ⌋ ( T k ) ( 1 − p ) k p T − k ≤ e x p ( − 1 2 T ( 1 − 2 p ) 2 ) P(H(x)≠f(x))= \sum_{k=0}^{\left \lfloor T/2 \right \rfloor} \binom{T}{k}(1-p)^{k}p^{T-k}\le exp(-\frac{1}{2}T(1-2p)^{2}) P(H(x)=f(x))=k=0T/2(kT)(1p)kpTkexp(21T(12p)2)

说明:需要保证一半以上分类器正确,集成分类才算正确,因此最少取floor(T/2)+1个分类器,并求和。

在集成分类器正确的情况下,由霍夫丁不等式知,随着集成个体分类器数目T增大,集成错误率将呈指数下降,最终趋于零。

e x p ( − 1 2 T ( 1 − 2 p ) 2 ) exp(-\frac{1}{2}T(1-2p)^{2}) exp(21T(12p)2)

说明:上述表达式是错误率的上限值,且为递减函数,随着T增大函数值逐渐减小。

结论:通常基学习器误差不会相互独立,个体学习器的准确性与多样性本身存在冲突。准确性高,多样性就低。
好而不同的个体学习器是集成学习的研究核心。

三、集成学习分类

强依赖关系:个体学习器间必须串行生成序列化方法,代表:Boosting。它是一种将弱学习器提升为强学习器的算法,
最终得到一组基学习器的加权结合。

非强依赖关系:个体学习器间可同时生成的并行方法,代表Bagging和随机森林(Random Forest)。Bagging指
的是随机采样出训练集,基于训练集训练出基学习器,并通过投票或者平均得到预测结果的方式。随机森林是以决策
树为学习器构建Bagging基础基础上,进一步在决策树的训练中引入随机属性选择。

四、知识拓展

在概率论中,马尔科夫不等式、霍夫丁不等式和詹森不等式,是机器学习中经常用到的不等式。
1、马尔科夫不等式(Markov’s Inequality)
公式:
p ( x > a ) < = E ( x ) a p(x>a)<=\frac{E(x)}{a} p(x>a)<=aE(x)

应用说明:用于估计一个概率的上界,比如你所在班级的数学平均分是60,那么随机选一个学生,其成绩超过的90的概率,不会超过60/90=2/3。

2、霍夫丁不等式(Hoeffding’s Inequality)
公式:

p ( s n − E ( s n ) > = t ) < = e x p − 2 t 2 ∑ n i ( b i − a i ) 2 p(s_{n} -E(s_{n})>=t)<=exp{-\frac{2t^{2}}{\sum_{n}^{i} (b^{i}-a^{i})^{2}}} p(snE(sn)>=t)<=expni(biai)22t2

马尔科夫不等式与霍夫丁引理可以推导出霍夫丁不等式。

应用说明:霍夫丁不等式给出了随机变量的和与其期望值偏差的概率上限,一般用于二分类问题的泛化误差上界。

3、詹森不等式(Jensen’s Inequality)
公式:

E ( f ( x ) ) > = f ( E ( x ) ) E(f(x))>=f(E(x)) E(f(x))>=f(E(x))

应用说明:EM算法、KL散度、改进迭代尺度算法。

以上公式证明后续单独进行证明。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值