元分类器:多样性与输出融合策略解析
在分类领域中,元分类器是将多个个体分类器的输出进行整合的重要工具。其性能不仅与个体分类器的准确性相关,还与分类器之间的多样性以及输出融合的方式密切相关。
1. 元分类器的多样性
元分类器的性能与个体分类器之间的协方差密切相关。协方差越小,误差越小,元分类器的性能越好,这就是所谓的偏差 - 方差 - 协方差分解。当所有分类器都犯相同的错误时,协方差较大;而当它们犯不同的错误,即具有多样性时,协方差较小,整体准确率更高。
1.1 多样性的量化方法
- 成对测量法 :经典的方法是测量两个分类器之间的成对相似性或不相似性,然后对所有成对测量结果进行平均。例如,两个分类器做出不同预测的比例或 Cohen’s kappa 统计量。
- 非成对测量法
- 香农熵法 :通过计算每个特定 $x_i$ 下类 $C$ 的香农熵,然后在数据集 $D$ 上求平均值来衡量多样性。计算公式为:
[-\frac{1}{N}\sum_{i = 1}^{N}\sum_{j = 1}^{R}p(c_j|x_i)\log_2 p(c_j|x_i)]
其中,$p(c_j|x_i)$ 可以估计为预测 $x_i$ 的标签为 $c_j$ 的分类器的比例,即:
[p(c_j|x_i) = \frac{1}{L}\sum_{k = 1}^{L}I(\varphi_k(x_i) = c_j)]
这里的 $I(\cdot)$ 是指示函数。
- 香农熵法 :通过计算每个特定 $x_i$ 下类 $C$ 的香农熵,然后在数据集 $D$ 上求平均值来衡量多样性。计算公式为:
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



