20、理解数据对公平性的影响及公平性定义

理解数据对公平性的影响及公平性定义

一、不同类型的偏差及其来源

1.1 偏差类型

偏差在数据处理和机器学习模型训练中是一个常见且影响重大的问题。以下是几种常见的偏差类型及其来源:
| 偏差类型 | 来源 |
| — | — |
| 行为偏差(Behavioral bias) | 不同平台、上下文或不同数据集上的用户行为差异 |
| 时间偏差(Temporal bias) | 不同时间的人口和行为差异 |
| 内容生产偏差(Content production bias) | 用户生成内容在结构、词汇、语义和句法上的差异 |

这些偏差并非孤立存在,它们相互影响并形成一个循环。例如,用户交互产生行为偏差,当输入数据时,这种偏差会被放大,进而导致聚合或纵向偏差。算法在处理这些数据时,又会引入新的偏差,如排名或新兴偏差。

1.2 偏差产生的原因

偏差的产生有多种原因,以下是详细介绍:
1. 倾斜的数据集 :数据集可能对出现频率较低的类别存在倾斜。例如犯罪数据集,在任何地区,罪犯数量相对无辜人群都非常有限。一旦发现这种倾斜,侦探和警察部门也会产生偏差,向高犯罪地区派遣更多警力,从而可能使这些地区显示出更高的犯罪率。
2. 训练数据不足 :当某些人口群体或其他群体的训练数据有限时,机器学习模型往往会产生有偏差的结果。例如面部识别技术,对白人男性图像的识别准确率高于黑人女性图像。
3. 人为偏差 :数据集常常因人为偏差而受到污染。以美国就业的真实数据收集为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值