16、机器学习中的多样性采样：提升数据公平性与模型准确性

最新推荐文章于 2025-12-02 20:26:37 发布

火锅底料102

最新推荐文章于 2025-12-02 20:26:37 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同：数据驱动AI未来文章标签：机器学习多样性采样数据公平性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/151592048

人机协同：数据驱动AI未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的多样性采样：提升数据公平性与模型准确性

1. 分层抽样确保人口统计学多样性

在缺乏各人口统计学类别未标记项目的参考数据集时，可采用分层方式在所有数据上应用主动学习策略：
1. 最小置信度采样 ：对每个类别应用最小置信度采样，在每个类别中选择该类别预测置信度最高的相同数量的项目。
2. 置信度边际采样 ：对每个类别应用置信度边际采样，选择该类别预测置信度最高或第二高的相同数量的项目。（置信度边际明确关注两个最有信心的预测）
3. 基于模型的离群值检测 ：对每个类别应用基于模型的离群值检测。
4. 基于聚类的采样 ：在每个类别内进行基于聚类的采样。

不同人口统计学类别在数据中的分布情况不同，例如：
- 类别 X ：目前所有示例都在当前训练数据内，但分布与整体训练数据不同。这在简单模型（如朴素贝叶斯）中可能是个问题，它类似于具有正偏差的特权类别，如多语言数据集中的标准英语数据。
- 类别 O ：部分在训练数据内，部分在训练数据外，在整个特征范围内分布较为均匀。如果能收集到代表整个特征空间的训练数据，这类别的问题相对较小，类似于基于时间的类别，每个项目在特定时期内被仔细收集。
- 类别 Z ：聚集在当前训练数据之外，且训练数据内的 Z 数据点可能是离群值。模型可能缺乏关于 Z 的信息，可能对其建模错误，类似于代表性不足的类别，如代表性不足的种族，除非与更有特权的类别

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。