特征选择与集成学习的稳定性指标及应用
1. 特征序列的稳定性指标
在特征选择领域,稳定性是一个重要的考量因素。对于一组特征序列 $\mathcal{A} = {S_1, S_2, \ldots, S_K}$,在给定子集大小 $k$ 的情况下,其稳定性指标 $\mathcal{I} S(\mathcal{A}(k))$ 定义为所有成对一致性指标的平均值,计算公式如下:
[
\mathcal{I}_S(\mathcal{A}(k)) = \frac{2}{K(K - 1)}\sum {i = 1}^{K - 1}\sum_{j = i + 1}^{K}I_C(S_i(k), S_j(k))
]
同时,对于相似性指标,也采用平均成对相似性的方法得到单一指标。分别用 $\mathcal{S}_S$ 和 $\mathcal{S}_H$ 表示交集 - 并集相似性 $S_S$ 和汉明相似性 $S_H$ 的平均指标。通过对 10 个独立生成的随机序列进行分析,绘制了一致性指标 $\mathcal{I}_S$、交集 - 并集相似性 $\mathcal{S}_S$ 和汉明相似性 $\mathcal{S}_H$ 随子集大小 $k$ 的变化图(如图 9.15 所示)。结果表明,只有 $\mathcal{I}_S$ 在任何特征数量 $k$ 下都能保持一致性接近零,而 $\mathcal{S}_S$ 倾向于大子集,$\mathcal{S}_H$ 则倾向于大子集和小子集,对中等大小的子集表现不佳。
2. 稳定性指标的应用示例
以垃圾邮件数据集为例,对 AUC 排序器进行了测试。具体步骤如下:
1. 数据划分
特征选择与集成学习的稳定性分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



