迈向面部分析算法偏差的因果基准测试
1. 相关工作
计算机视觉中的基准测试历史悠久,涵盖人脸识别和面部分析等领域。部分研究关注性能偏差,即重要参数(如面部种族背景)变化时的错误率。但这些研究多为观察性研究,无法明确所测偏差是源于算法偏差还是测试数据的相关性。
数据集存在偏差通常表现为感兴趣特征的组合呈现不均衡,或者这些特征之间存在相关性。计算机视觉数据集常被发现有偏差,人脸数据集更是受到严格审查,因为基于这些数据训练的方法和模型可能会在受法律保护的属性上产生偏差。缓解数据集偏差的方法包括收集更全面的示例、使用图像合成弥补分布差距以及进行示例重采样。
机器学习社区积极分析学习模型的偏差,并探索减轻偏差的训练方法,通常是确保在数据集的特定子组中性能一致。而我们关注的是,在假设待基准测试的系统已预训练且固定的情况下,如何可靠地测量预训练黑盒算法中的算法偏差。
一些关于面部分析和识别系统的研究尝试测量性别和肤色(或种族)方面的偏差,但评估方法多基于观察而非干预,因此其结论需谨慎对待。有研究通过实验方法探究肤色在性别分类中的影响,人工修改真实人脸照片的肤色,但将该方法推广到其他属性(如头发长度)较为困难。我们的目标是开发一种通用且实用的实验方法,能够独立研究任何属性。
近期有工作利用生成模型探索面部分类系统的偏差,有的研究探索姿势和光照变化对分类器性能的影响,有的则沿特定属性方向合成人脸。但这些研究依赖于生成模型能一次修改一个属性的强假设,而这需要无偏差的训练数据,实际中很难实现。我们的框架则利用人工标注来处理生成模型产生的残余相关性。
还有关于解释神经网络的研究,如确定输入中显著区域、探索特定神经元对输出的影响以及使用概念激活向
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



