Ensemble Learning 集成学习

基本概念

通过对多个学习期进行结合,获得比单个学习器更优的结果。

Hoeffding Inequality

Hoeffding Inequality提供了独立随机变量之和偏离期望值的概率的上界。
特殊情况:当随机变量是Bernoulli分布时,假设随机变量 x=1 的概率为p,进行了n次实验,随机变量 x 之和至多为k的概率为:
P(H(n)k)=i=0k(n i)pi(1p)(ni)
H(n)nx

k=(pϵ)nϵ>0 时存在上述概率存在以下上界
P(H(n)(pϵ)n)exp(2ϵ2n)

相似的,当 k=(p+ϵ)nϵ>0 时存在上述概率存在以下上界
P(H(n)(p+ϵ)n)exp(2ϵ2n)

结合两者,得
P((pϵ)nH(n)(pϵ)n)12exp(2ϵ2n)
结合Bernoulli分布的期望是 pn ,我们可以得出最后得出 H(n) 在期望值附近的概率上界

多个二分类器集成之后的集成分类器

假设有T个独立的二分类器 hi ,分类标签为 y{1,1} , 真实的分类函数为 f ,假设每个分类器的错误率为ϵ
即:
P(hi(x)f(x))=ϵ
通过简单的投票法结合这T个分类,即:
H(x)=sign(i=1Thi(x))
则:
P(H(x)=f(x))=k=0T/2(T k)(1ϵ)kϵTk exp(12T(12ϵ)2)
这里用到了上述的Hoeffding inequality。
可以看到,当集成的分类器个数T变多的时候,集成分类器的错误率会程指数下降,但是这个是基于一个基本假设的,即分类器之间是独立的,在实际中,子分类器是很难达到独立的,所以一般要求子分类器的多样性要大一些。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值