数据集扰动与排列优化在分类器集成和近似搜索中的应用
1. 分类器集成方法:CDEBMTE
1.1 数据集扰动与分类器训练
在分类器集成的研究中,为了提高分类器的多样性,采用了对数据集进行启发式扰动的方法。这里涉及三个参数 κ、λ 和 μ,其取值范围为 {0.2, 0.4, 0.6, 0.8, 1}。例如,κ TS 表示从训练集 TS 中进行子采样,包含 TS 的 κ 比例的数据;κ TS∪λ EPS∪μ NS 则表示三个子采样的并集,分别是从 TS 中取 κ 比例、从 EPS 中取 λ 比例以及从 NS 中取 μ 比例的数据。
根据不同的参数组合对分类器进行重新训练,使得每个分类器专注于数据的特定方面,从而在集成中实现良好的多样性。虽然单个分类器的准确性可能不比简单分类器显著提高,但能产生令人满意的多样化基分类器。
研究中定义了六种生成子集的类别:
- 第一类:通过滑动参数 κ 在其取值范围内的所有可能值,可得到 5 个训练子集。
- 第二类:滑动参数 κ 和 μ 在其取值范围内的所有可能值,可得到 5 * 5 = 25 个训练子集。
- 第三类、第四类、第五类和第六类:分别通过滑动各自的参数,可得到 125(5 * 5 * 5)、25、25 和 5 个训练子集。
1.2 集成的多样性度量
为了定义有意义的多样性度量,首先定义了单个示例上分类器之间的多样性度量。用 (d(C_i, C_j, x_k)) 表示单个示例上第 (i) 个和第 (j) 个分类器之间的多样性度量,其计算公式如下:
[d(C_i, C_j, x_k) =
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



