36、机器学习中的偏差缓解与因果推断方法

机器学习中的偏差缓解与因果推断方法

在机器学习领域,偏差检测与缓解是确保模型公平性和可靠性的关键环节。本文将围绕信用违约数据集,详细介绍偏差检测与量化的方法和步骤。

1. 数据准备

大部分观测值的处理值为 -1,这些数据不参与因果推断。剩余数据在三种处理(1 - 3)和对照组(0)之间平均分配,我们将使用这四组数据进行因果推断。同时,由于对照组未接受处理,可将其与处理值为 -1 的数据用于偏差缓解。

数据准备的第一步是分割数据集,通过 _TREATMENT 列对 pandas DataFrames 进行子集操作,创建用于偏差缓解( ccdefault_bias_df )和因果推断( ccdefault_causal_df )的 DataFrame:

ccdefault_bias_df = ccdefault_all_df[ccdefault_all_df._TREATMENT < 1]
ccdefault_causal_df = ccdefault_all_df[ccdefault_all_df._TREATMENT >= 0]
2. 偏差来源与公平性概念

机器学习中的偏差来源广泛,包括数据所代表的真相中的系统性和结构性偏差,数据本身的样本、排除、关联和测量偏差,以及从数据或模型中得出的见解中的保守主义偏差、显著性偏差和基本归因错误等。

公平性分为程序公平和结果公平:
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值