不确定环境下的集成学习研究
1. 集成学习中的多样性影响
在集成学习里,分类器集成的多样性对其泛化能力有着直接影响。泛化能力与基分类器的多样性、分类置信度以及生成基分类器的方法紧密相关。比如,Hu等人提出了基于粗糙子空间生成基分类器的新方法,能构建强大且紧凑的分类系统;Li等人则探索了基分类器分类置信度对集成学习投票机制的影响。
为了研究多样性,我们选择了一种广泛使用的Q统计量来计算两个分类器之间的多样性。其公式为:
[Q_{ij} = \frac{N_{11}N_{00} - N_{01}N_{10}}{N_{11}N_{00} + N_{01}N_{10}}]
其中,(N_{ab}) 表示分类器 (C_i) 输出为 (a) 且分类器 (C_j) 输出为 (b) 的样本数量。若样本被 (C_i)(或 (C_j))正确分类,(a)(或 (b))取值为 1,否则为 0。
集成的平均多样性通过以下公式评估:
[Q_{av} = \frac{1}{l(l - 1)}\sum_{i = 1}^{l - 1}\sum_{j = i + 1}^{l}Q_{ij}]
这里,(l) 是分类器的数量。Q统计量的值在 -1 到 +1 之间,分别表示负相关和正相关。
在 20 个选定数据集上对三种分类器的实验结果表明,高模糊度分类器集成的多样性略低于低模糊度分类器集成。这说明多样性对集成学习性能有关键影响,但并非多样性越高,性能就越好。
1.1 实验数据示例
| 分类器类型 | 低模糊度多样性 | 高 |
|---|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



