基本概念
通过对多个学习期进行结合,获得比单个学习器更优的结果。
Hoeffding Inequality
Hoeffding Inequality提供了独立随机变量之和偏离期望值的概率的上界。
特殊情况:当随机变量是Bernoulli分布时,假设随机变量
x=1
的概率为p,进行了n次实验,随机变量
x
之和至多为
P(H(n)≤k)=∑i=0k(n i)pi(1−p)(n−i)
H(n)表示n次实验变量x之和
当
k=(p−ϵ)n,ϵ>0
时存在上述概率存在以下上界
P(H(n)≤(p−ϵ)n)≤exp(−2ϵ2n)
相似的,当
k=(p+ϵ)n,ϵ>0
时存在上述概率存在以下上界
P(H(n)≤(p+ϵ)n)≤exp(−2ϵ2n)
结合两者,得
P((p−ϵ)n≤H(n)≤(p−ϵ)n)≥1−2exp(−2ϵ2n)
结合Bernoulli分布的期望是
pn
,我们可以得出最后得出
H(n)
在期望值附近的概率上界
多个二分类器集成之后的集成分类器
假设有T个独立的二分类器
hi
,分类标签为
y∈{−1,1}
, 真实的分类函数为
f
,假设每个分类器的错误率为
即:
P(hi(x)≠f(x))=ϵ
通过简单的投票法结合这T个分类,即:
H(x)=sign(∑i=1Thi(x))
则:
P(H(x)=f(x))=∑k=0T/2(T k)(1−ϵ)kϵT−k ≤exp(−12T(1−2ϵ)2)
这里用到了上述的Hoeffding inequality。
可以看到,当集成的分类器个数T变多的时候,集成分类器的错误率会程指数下降,但是这个是基于一个基本假设的,即分类器之间是独立的,在实际中,子分类器是很难达到独立的,所以一般要求子分类器的多样性要大一些。