分类器集成中的多样性解析
1 多样性概述
在分类器集成领域,多样性是一个关键概念。当使用集成方法来近似数值(即回归集成)时,各个估计器的输出可能会相互补偿差异。例如,假设有一个任务是估计未知值 $y$,使用由两个估计器组成的集成,估计值 $\hat{y}$ 为它们的平均值。通过图 8.1 可以看到四种情况:
|情况|多样性|估计效果|
| ---- | ---- | ---- |
|(a)|低|差|
|(b)|高|差|
|(c)|低|好|
|(d)|高|好|
从这个例子可以看出,将高多样性与更好的集成性能直接关联并非易事。单个估计器的准确性由其输出与真实值 $y$ 的接近程度衡量。如果两个估计器都准确(图 8.1c),多样性必然较小且并非特别重要,最终能得到良好的估计。但如果估计器不准确(图 8.1a、8.1b 和 8.1d),多样性可能有益也可能无益,如图 8.1b 所示,高多样性并不一定意味着能得到好的估计 $\hat{y}$。而图 8.1d 表明,只要各个估计器的偏差能相互抵消,即使它们不准确,也能得到良好的估计,但设计这样的集成并非易事。
在软件工程中,软件可靠性是一个主要问题。可以并行运行多个程序(版本),期望当一个或多个程序失败时,其他程序能通过产生正确输出来进行补偿。然而,独立创建的版本在困难任务上往往会一起失败,在简单任务上则会一起正确运行。这里的程序(版本)对应集成中的分类器,输入对应特征空间中的点。
2 多样性的衡量
2.1 统计关系度量
2.1.1 相关性
对于连续值(软)输出的分类器对,可以计算相关系数。每
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



