50、不平衡相异矩阵的单边原型选择

不平衡相异矩阵的单边原型选择

1. 引言

在传统统计模式识别中,每个对象由 n 个可观察特征或属性表示,可视为 n 维特征空间中的向量。而 Duin 和 Pekalska 提出了相异空间的概念。构建相异空间需要一个包含 r 个对象(原型)的表示集 R = {p1, …, pr}。相异表示通过计算训练集 T 中的示例与表示集 R 中的对象之间的成对相异度,将单个特征模式符号化。相异向量可解释为数值特征,描述每个对象与其他对象之间的关系。

给定特征空间中包含 m 个对象的训练集 T = {x1, …, xm},分类器使用相异矩阵 D(T, R) 构建,该矩阵描述了 m 个训练集对象与 r 个原型之间的接近程度。表示集可以是完整的训练集 T、一组构造的原型、覆盖所有类别的 T 的子集,甚至是一组任意标记或未标记的对象。

相异空间的维度由集合 R 中的原型数量决定。当 R = T 时,相异矩阵 D(T, T) 可能对分类器施加较高的计算要求,并对性能产生不利影响。为解决这一缺点,一些研究提出从训练数据中选择一个小的表示集来降低相异空间的维度。显然,修剪后的表示集将使距离矩阵 D(T, T) 缩减为 D(T, R)。在此背景下,原型选择是一个活跃的研究领域,主要通过两种方式解决:一是找到能够生成低维相异空间的小表示集;二是缩减原始相异矩阵。

原型选择方法在类别平衡的相异空间分类中表现良好。然而,在许多实际问题中,类别之间的先验概率比率可能极度倾斜,即存在类别不平衡问题。当一个类(多数类)的示例数量远远超过另一个类(少数类)时,数据集被认为是不平衡的。在实际应用中,错误分类少数类(或正类)示例的成本很高,如医疗诊断和监测、欺诈/入侵检测、信用风险和破产预测、信息检索和过滤

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值