负类标签缺失情况下的分类器评估
1. 数据缺失与偏差类型
数据缺失通常有三种方式,分别对应不同的缺失机制:
- 随机缺失(MAR):数据中的值以一种可在数据内部解释的方式缺失。
- 非随机缺失(MNAR):数据中的值以一种可能由学习者无法访问的潜在变量解释的方式缺失。
- 完全随机缺失(MCAR):数据中的值缺失,且没有潜在或观察到的变量可以解释这些缺失值。
对于数据中的偏差,我们考虑一种类似的问题,即数据中存在标签错误的实例,而非实例缺失。我们将这类偏差分为三种情况:BAR、BCAR 和 BNAR,这三种情况可能对分类器性能评估产生显著影响。
2. 类别标签中的系统偏差
当正类仅包含标签正确的实例,而负类包含标签正确和错误的实例时,我们认为类别标签定义不明确。许多数据集可能存在这种情况,但其根本原因在不同数据集之间可能差异很大。特别是,根据数据的收集方式,不同类型的偏差可能会注入到数据集中实例的错误标签中。
2.1 注入偏差的方法
为了模拟不同类型的偏差,我们将其注入到数据集中。具体方法如下:
- 完全随机偏差(BCAR) :通过均匀随机地更改正类实例的标签,将偏差注入到数据集中。
- 随机偏差(BAR) :通过按单个特征对数据进行排序,并翻转前 X% 的正类实例的类别标签,将偏差注入到数据集中。
- 非随机偏差(BNAR) :通过按单个特征对实例进行排序,翻转前 X% 的正类实例的类别标签,并移除用于排序的特征,使数据集产生非随机偏差。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



