模型公平性与偏差缓解:技术解析与实践指南
1. 基于表征的歧视检测
在某些情况下,很难将歧视问题或公平性指标的差异追溯到输入数据。例如,当输入为图像或文本时,难以将公平性指标的差异与像素值或词表示的值联系起来。此时,更好的方法是检测模型学习到的表征中是否存在偏差。
以训练一个用于检测图像中是否包含医生的卷积神经网络(CNN)为例,若要检查该模型是否对特定受保护群体(如基于性别的群体)存在偏差,可以使用网络剖析框架。具体步骤如下:
1. 定义特定概念字典 :以性别受保护属性为例,定义如男性、女性和非二元性别的特定概念字典,并对图像进行像素级标注。
2. 探查预训练网络 :对预训练的CNN网络进行探查。
3. 量化对齐 :量化CNN中每个单元和层与特定性别概念的对齐程度。
4. 检查唯一检测器数量 :检查每个性别概念的唯一检测器数量,若某一性别有更多唯一检测器,则表明模型可能学习到了对该性别的有偏表征。
当模型输入为文本时,可使用t - 分布式随机邻域嵌入(t - SNE)技术检查模型学习到的表征是否对受保护群体存在偏差。具体操作如下:
1. 建立词汇分类体系 :明确哪些词汇是性别中立的,哪些与特定性别相关。
2. 可视化词的距离 :使用t - SNE可视化“医生”一词与语料库中其他词汇的距离。若“医生”更接近性别中立词汇(如“医院”“医疗保健”),则模型对“医生”的表征无偏差;若更接近特定性别词汇(
超级会员免费看
订阅专栏 解锁全文
601

被折叠的 条评论
为什么被折叠?



