48、负类标签缺失情况下的分类器评估

负类标签缺失情况下的分类器评估

1. 数据缺失与偏差类型

数据缺失通常有三种方式,分别对应不同的缺失机制:
- 随机缺失(MAR):数据中的值以一种可在数据内部解释的方式缺失。
- 非随机缺失(MNAR):数据中的值以一种可能由学习者无法访问的潜在变量解释的方式缺失。
- 完全随机缺失(MCAR):数据中的值缺失,且没有潜在或观察到的变量可以解释这些缺失值。

对于数据中的偏差,我们考虑一种类似的问题,即数据中存在标签错误的实例,而非实例缺失。我们将这类偏差分为三种情况:BAR、BCAR 和 BNAR,这三种情况可能对分类器性能评估产生显著影响。

2. 类别标签中的系统偏差

当正类仅包含标签正确的实例,而负类包含标签正确和错误的实例时,我们认为类别标签定义不明确。许多数据集可能存在这种情况,但其根本原因在不同数据集之间可能差异很大。特别是,根据数据的收集方式,不同类型的偏差可能会注入到数据集中实例的错误标签中。

2.1 注入偏差的方法

为了模拟不同类型的偏差,我们将其注入到数据集中。具体方法如下:
- 完全随机偏差(BCAR) :通过均匀随机地更改正类实例的标签,将偏差注入到数据集中。
- 随机偏差(BAR) :通过按单个特征对数据进行排序,并翻转前 X% 的正类实例的类别标签,将偏差注入到数据集中。
- 非随机偏差(BNAR) :通过按单个特征对实例进行排序,翻转前 X% 的正类实例的类别标签,并移除用于排序的特征,使数据集产生非随机偏差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值