48、负类标签缺失情况下的分类器评估

time3

于 2025-10-13 13:19:53 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：智能数据分析前沿探秘文章标签：负类标签缺失分类器评估数据偏差

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/time3/article/details/153682228

智能数据分析前沿探秘专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

负类标签缺失情况下的分类器评估

1. 数据缺失与偏差类型

数据缺失通常有三种方式，分别对应不同的缺失机制：
- 随机缺失（MAR）：数据中的值以一种可在数据内部解释的方式缺失。
- 非随机缺失（MNAR）：数据中的值以一种可能由学习者无法访问的潜在变量解释的方式缺失。
- 完全随机缺失（MCAR）：数据中的值缺失，且没有潜在或观察到的变量可以解释这些缺失值。

对于数据中的偏差，我们考虑一种类似的问题，即数据中存在标签错误的实例，而非实例缺失。我们将这类偏差分为三种情况：BAR、BCAR 和 BNAR，这三种情况可能对分类器性能评估产生显著影响。

2. 类别标签中的系统偏差

当正类仅包含标签正确的实例，而负类包含标签正确和错误的实例时，我们认为类别标签定义不明确。许多数据集可能存在这种情况，但其根本原因在不同数据集之间可能差异很大。特别是，根据数据的收集方式，不同类型的偏差可能会注入到数据集中实例的错误标签中。

2.1 注入偏差的方法

为了模拟不同类型的偏差，我们将其注入到数据集中。具体方法如下：
- 完全随机偏差（BCAR） ：通过均匀随机地更改正类实例的标签，将偏差注入到数据集中。
- 随机偏差（BAR） ：通过按单个特征对数据进行排序，并翻转前 X% 的正类实例的类别标签，将偏差注入到数据集中。
- 非随机偏差（BNAR） ：通过按单个特征对实例进行排序，翻转前 X% 的正类实例的类别标签，并移除用于排序的特征，使数据集产生非随机偏差。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。