数据增强中的偏差:从理论到实践
在人工智能领域,数据增强是提升模型性能的重要手段,但其中存在的偏差问题却常常被忽视。本文将深入探讨数据增强中的计算偏差、人类偏差和系统性偏差,并介绍如何使用Python Notebook从Kaggle网站获取真实世界的数据集,同时分析其中可能存在的图像偏差。
1. 趣味事实与偏差概述
在GitHub上,借助生成式AI和Stable Diffusion,Pluto编写了一段描述:“一个由水晶球制成的可爱小河马,有着低多边形眼睛,被发光的光环环绕,这是高度精细复杂的概念艺术,在艺术平台上很热门,8K画质,它在城市里穿着粉色波尔卡圆点衣服吃着西兰花。”通过反复运行并稍作措辞修改,生成了他喜欢的图像。
偏差主要分为计算偏差、人类偏差和系统性偏差。计算偏差部分已介绍完毕,接下来重点关注人类偏差和系统性偏差。
2. 人类偏差
人类偏差难以用Python代码计算,目前没有相关的Python或其他语言库来为数据集中的人类偏差计算数值分数,主要依靠观察来发现。人类偏差反映了人类思维中的系统性错误,在开发AI系统时,算法和数据的选择会限制预测结果,从而导致偏差。
人类偏差种类繁多,认知和感知偏差在各个领域都有体现,并非仅存在于人类与AI的交互中。例如,锚定偏差和确认偏差等,在思维、决策和行为经济学领域都有专门的研究。
作为数据科学家,在进行数据增强时,意识到这些固有的人类偏见,就能在开发和训练模型之前指出数据中的缺陷。以下是现实世界AI系统中人类偏差的一些例子:
- 中国新疆面部识别系统 :所谓“中国在新疆实施面部识别AI对维吾尔族等少数
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



