16、机器学习中的多样性采样:提升数据公平性与模型准确性

机器学习中的多样性采样:提升数据公平性与模型准确性

1. 分层抽样确保人口统计学多样性

在缺乏各人口统计学类别未标记项目的参考数据集时,可采用分层方式在所有数据上应用主动学习策略:
1. 最小置信度采样 :对每个类别应用最小置信度采样,在每个类别中选择该类别预测置信度最高的相同数量的项目。
2. 置信度边际采样 :对每个类别应用置信度边际采样,选择该类别预测置信度最高或第二高的相同数量的项目。(置信度边际明确关注两个最有信心的预测)
3. 基于模型的离群值检测 :对每个类别应用基于模型的离群值检测。
4. 基于聚类的采样 :在每个类别内进行基于聚类的采样。

不同人口统计学类别在数据中的分布情况不同,例如:
- 类别 X :目前所有示例都在当前训练数据内,但分布与整体训练数据不同。这在简单模型(如朴素贝叶斯)中可能是个问题,它类似于具有正偏差的特权类别,如多语言数据集中的标准英语数据。
- 类别 O :部分在训练数据内,部分在训练数据外,在整个特征范围内分布较为均匀。如果能收集到代表整个特征空间的训练数据,这类别的问题相对较小,类似于基于时间的类别,每个项目在特定时期内被仔细收集。
- 类别 Z :聚集在当前训练数据之外,且训练数据内的 Z 数据点可能是离群值。模型可能缺乏关于 Z 的信息,可能对其建模错误,类似于代表性不足的类别,如代表性不足的种族,除非与更有特权的类别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值