算法偏差检测与纠正策略
1. 算法偏差的发现与挑战
在信用申请模型的基础监测中,发现该模型可能对某些火星人存在歧视。初步的根本原因分析中,决策树找出了一些异常点,比如那些被拒绝但事后证明能良好偿还债务的申请人,发现他们都居住在少数几个被认为是火星人聚居区的邮政编码区域。在美国,这种“红线划分”(拒绝向特定区域提供服务)是违法的,在其他地方可能也是如此。而且,数据科学家指出,邮政编码并未作为输入提供给机器学习模型。进一步分析发现,通常的风险驱动因素(如收入和信用记录)在这些聚居区火星人的变量列表中明显缺失,而最重要的驱动因素竟是申请人住所到著名土豆快餐连锁店乔氏土豆最近分店的距离。
这一例子揭示了机器学习算法在处理偏差时的重大挑战。如果训练模型的数据中已经存在偏差(反映了社会偏见),算法会尽力捕捉这些偏差的指标。即使去除直接指标(如邮政编码),它也会找到间接指标(如到乔氏土豆的距离);去除间接指标,还会找到更间接的指标(如申请人附近以“J”开头的企业数量)。因此,并非总能从模型中消除偏差,需要考虑其他解决方案。
2. 自我改进算法的监测挑战
机器学习的快速发展催生了自我改进算法。传统上,数据科学家收集数据、通过探索性分析了解数据,然后经过多次迭代创建预测公式,包括创建特征、纠正数据问题以及通过选择变量和超参数引导统计算法。而机器学习可以自动完成这些工作,甚至每周、每天,甚至每分钟都能生成新版本的模型。
这给我们的监督带来了挑战。当我们分析完一个机器学习模型并找到偏差的根本原因(或确定没有偏差)时,机器可能已经创建了五个新版本的模型,这些模型可能与我们分析的模型完全不同。为了跟上这种变化,需要对每个新版本的算法进行监测,以确定它与我们之前明
超级会员免费看
订阅专栏 解锁全文
55

被折叠的 条评论
为什么被折叠?



