机器学习中的多样性采样:提升数据公平性与模型准确性
1. 分层抽样确保人口统计学多样性
在缺乏各人口统计学类别未标记项目的参考数据集时,可采用分层方式在所有数据上应用主动学习策略:
1. 最小置信度采样 :对每个类别应用最小置信度采样,在每个类别中选择该类别预测置信度最高的相同数量的项目。
2. 置信度边际采样 :对每个类别应用置信度边际采样,选择该类别预测置信度最高或第二高的相同数量的项目。(置信度边际明确关注两个最有信心的预测)
3. 基于模型的离群值检测 :对每个类别应用基于模型的离群值检测。
4. 基于聚类的采样 :在每个类别内进行基于聚类的采样。
不同人口统计学类别在数据中的分布情况不同,例如:
- 类别 X :目前所有示例都在当前训练数据内,但分布与整体训练数据不同。这在简单模型(如朴素贝叶斯)中可能是个问题,它类似于具有正偏差的特权类别,如多语言数据集中的标准英语数据。
- 类别 O :部分在训练数据内,部分在训练数据外,在整个特征范围内分布较为均匀。如果能收集到代表整个特征空间的训练数据,这类别的问题相对较小,类似于基于时间的类别,每个项目在特定时期内被仔细收集。
- 类别 Z :聚集在当前训练数据之外,且训练数据内的 Z 数据点可能是离群值。模型可能缺乏关于 Z 的信息,可能对其建模错误,类似于代表性不足的类别,如代表性不足的种族,除非与更有特权的类别
超级会员免费看
订阅专栏 解锁全文
1517

被折叠的 条评论
为什么被折叠?



