参考 Hoeffding不等式及其在机器学习中的应用 - 云+社区 - 腾讯云
考虑二分类问题和真实函数
, 假定基分类器的错误率为
, 即对每个基分类器
有
(1)
假设集成通过简单投票法结合个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:
(2)
假设基分类器的错误率相互独立, 则由Hoeffding不等式可知, 集成的错误率为:
(3)
Hoeffding不等式适用于有界的随机变量. 设有两两独立的一系列随机变量X1,...,Xn. 假设对所有的1≤i≤n, Xi都是几乎有界的变量, 即满足:
(4)
那么这n个随机变量的经验期望:
(5)
满足以下的不等式:
(6),(7)
伯努利随机变量的特例
假定一个硬币A面朝上的概率为p, 则B面朝上的概率为1−p. 抛n次硬币, A面朝上次数的期望值为n∗p. 则A面朝上的次数不超过k次的概率为:
(8)
H(n)为抛n次硬币A面朝上的次数
对某一ε>0当k=(p−ε)n 时, 有Hoeffding不等式
(9)
对应的, 当k=(p+ε)n 时,
(10)
由此可得
(11)
利用式(9)可推式(3)
式(3)的1−ϵ相当于式(9)的p , 令H(n)为基分类器分类正确的数量, 有
(12)
总分类器的数量为T(就是n), 令, 可推得
, 根据式(9)可得
(13)
便得到式(3)得最终不等式形式
本文探讨了Hoeffding不等式在二分类问题中,通过基分类器错误率独立性,如何确保集成分类器的错误率。通过硬币抛掷的例子,解释了如何利用Hoeffding不等式推导集成错误率的上界,以及在机器学习中的实际应用,特别是投票法集成的性能保证。
3566





