机器学习中的公平性定义与数据审计
在机器学习领域,确保模型的公平性至关重要。公平性不仅关乎模型的准确性,还涉及到社会的公平与正义。本文将介绍多种公平性的定义和衡量方法,以及如何使用开源工具进行数据审计和质量检查。
公平性的定义与衡量指标
- 等效准确性指标 :一个好的预测合格分数意味着参赛者有一个好的合格分数,而低的预测合格分数则表示参赛者的合格分数较低。但当由于性别偏见,低预测分数的男性参赛者获得好的合格分数时,这个指标就不满足了。例如,男性和女性参赛者的阳性预测值(PPV)分别为 0.73 和 0.74,阴性预测值(NPV)分别为 0.49 和 0.63。
- 总体准确性平等 :要求分类器确保受保护和不受保护的群体具有相等的预测准确性。数学上可表示为 (P (d = Y, G = m) = P (d = Y, G = f))。该指标允许男性和女性之间存在微小差异,例如两组的总体准确率分别为 0.68 和 0.71。
- 处理平等 :该指标确定分类器的错误比率,而不是考虑其准确性。它确保受保护和不受保护的群体具有相等的假阴性和假阳性比率(FN/FP),例如男性和女性参赛者的该比率分别为 0.56 和 0.62。
| 公平性指标 | 定义 | 示例 |
|---|---|---|
| 等效准确性指标 | 预测分数与实际合格分 |
超级会员免费看
订阅专栏 解锁全文
1224

被折叠的 条评论
为什么被折叠?



