不平衡相异矩阵的单边原型选择
1. 引言
在传统统计模式识别中,每个对象由 n 个可观察特征或属性表示,可视为 n 维特征空间中的向量。而 Duin 和 Pekalska 提出了相异空间的概念。构建相异空间需要一个包含 r 个对象(原型)的表示集 R = {p1, …, pr}。相异表示通过计算训练集 T 中的示例与表示集 R 中的对象之间的成对相异度,将单个特征模式符号化。相异向量可解释为数值特征,描述每个对象与其他对象之间的关系。
给定特征空间中包含 m 个对象的训练集 T = {x1, …, xm},分类器使用相异矩阵 D(T, R) 构建,该矩阵描述了 m 个训练集对象与 r 个原型之间的接近程度。表示集可以是完整的训练集 T、一组构造的原型、覆盖所有类别的 T 的子集,甚至是一组任意标记或未标记的对象。
相异空间的维度由集合 R 中的原型数量决定。当 R = T 时,相异矩阵 D(T, T) 可能对分类器施加较高的计算要求,并对性能产生不利影响。为解决这一缺点,一些研究提出从训练数据中选择一个小的表示集来降低相异空间的维度。显然,修剪后的表示集将使距离矩阵 D(T, T) 缩减为 D(T, R)。在此背景下,原型选择是一个活跃的研究领域,主要通过两种方式解决:一是找到能够生成低维相异空间的小表示集;二是缩减原始相异矩阵。
原型选择方法在类别平衡的相异空间分类中表现良好。然而,在许多实际问题中,类别之间的先验概率比率可能极度倾斜,即存在类别不平衡问题。当一个类(多数类)的示例数量远远超过另一个类(少数类)时,数据集被认为是不平衡的。在实际应用中,错误分类少数类(或正类)示例的成本很高,如医疗诊断和监测、欺诈/入侵检测、信用风险和破产预测、信息检索和过滤
超级会员免费看
订阅专栏 解锁全文
1276

被折叠的 条评论
为什么被折叠?



