23、分类器集成中的多样性解析

分类器集成中的多样性解析

1 多样性概述

在分类器集成领域,多样性是一个关键概念。当使用集成方法来近似数值(即回归集成)时,各个估计器的输出可能会相互补偿差异。例如,假设有一个任务是估计未知值 $y$,使用由两个估计器组成的集成,估计值 $\hat{y}$ 为它们的平均值。通过图 8.1 可以看到四种情况:
|情况|多样性|估计效果|
| ---- | ---- | ---- |
|(a)|低|差|
|(b)|高|差|
|(c)|低|好|
|(d)|高|好|

从这个例子可以看出,将高多样性与更好的集成性能直接关联并非易事。单个估计器的准确性由其输出与真实值 $y$ 的接近程度衡量。如果两个估计器都准确(图 8.1c),多样性必然较小且并非特别重要,最终能得到良好的估计。但如果估计器不准确(图 8.1a、8.1b 和 8.1d),多样性可能有益也可能无益,如图 8.1b 所示,高多样性并不一定意味着能得到好的估计 $\hat{y}$。而图 8.1d 表明,只要各个估计器的偏差能相互抵消,即使它们不准确,也能得到良好的估计,但设计这样的集成并非易事。

在软件工程中,软件可靠性是一个主要问题。可以并行运行多个程序(版本),期望当一个或多个程序失败时,其他程序能通过产生正确输出来进行补偿。然而,独立创建的版本在困难任务上往往会一起失败,在简单任务上则会一起正确运行。这里的程序(版本)对应集成中的分类器,输入对应特征空间中的点。

2 多样性的衡量

2.1 统计关系度量

2.1.1 相关性

对于连续值(软)输出的分类器对,可以计算相关系数。每

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值