机器学习中的偏差缓解与因果推断方法
在机器学习领域,偏差检测与缓解是确保模型公平性和可靠性的关键环节。本文将围绕信用违约数据集,详细介绍偏差检测与量化的方法和步骤。
1. 数据准备
大部分观测值的处理值为 -1,这些数据不参与因果推断。剩余数据在三种处理(1 - 3)和对照组(0)之间平均分配,我们将使用这四组数据进行因果推断。同时,由于对照组未接受处理,可将其与处理值为 -1 的数据用于偏差缓解。
数据准备的第一步是分割数据集,通过 _TREATMENT 列对 pandas DataFrames 进行子集操作,创建用于偏差缓解( ccdefault_bias_df )和因果推断( ccdefault_causal_df )的 DataFrame:
ccdefault_bias_df = ccdefault_all_df[ccdefault_all_df._TREATMENT < 1]
ccdefault_causal_df = ccdefault_all_df[ccdefault_all_df._TREATMENT >= 0]
2. 偏差来源与公平性概念
机器学习中的偏差来源广泛,包括数据所代表的真相中的系统性和结构性偏差,数据本身的样本、排除、关联和测量偏差,以及从数据或模型中得出的见解中的保守主义偏差、显著性偏差和基本归因错误等。
公平性分为程序公平和结果公平:
-
超级会员免费看
订阅专栏 解锁全文
4908

被折叠的 条评论
为什么被折叠?



