多样性采样:实现机器学习数据公平与多元的关键策略
在机器学习领域,数据的多样性和公平性对于模型的性能和泛化能力至关重要。多样性采样作为一种主动学习方法,旨在从数据中选取最具代表性和多样性的样本,以提高模型在不同场景和人群中的表现。本文将深入探讨多样性采样的相关策略、不同模型下的应用以及其局限性。
分层采样确保人口统计学多样性
当缺乏每个群体的无标签参考数据集时,需要采用分层的主动学习策略,具体步骤如下:
1. 最小置信度采样 :对每个群体应用最小置信度采样,从每个群体中选择数量相等的样本,这些样本应是该群体中模型预测最有信心的样本。
2. 置信度边际采样 :对每个群体应用置信度边际采样,从每个群体中选择数量相等的样本,这些样本应是该群体中模型预测最有信心或第二有信心的样本。
3. 基于模型的异常值检测 :对每个群体进行基于模型的异常值检测。
4. 基于聚类的采样 :在每个群体内进行基于聚类的采样。
以下是一个简单的示例,展示了不同群体的数据分布情况:
| 群体 | 描述 |
| ---- | ---- |
| X | 所有示例都在当前训练数据内,但分布与整体训练数据不同,通常代表具有正偏差的特权群体,如多语言数据集中的标准英语数据。 |
| O | 部分在训练数据内,部分在训练数据外,分布较为均匀,代表偏差最小的群体,如基于时间的群体。 |
| Z | 聚集在当前训练数据之外,训练数据内的 Z 数据点可能是异常值,代表代表性不足的群体,如数据
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



