数据增强中的偏差分析
在数据科学领域,数据增强是提升AI系统性能的重要手段,但数据中存在的偏差可能会对AI的预测和决策产生负面影响。本文将通过分析多个来自Kaggle的数据集,探讨数据增强中可能存在的偏差。
1. SFDDD数据集偏差分析
Pluto在研究SFDDD数据集时,考虑了计算、人为和系统性偏差。以下是从数据集中观察到的可能偏差:
- 数据集中没有老年司机的样本。
- 司机的人口统计分布有限,仅约有十几名司机的样本,而该AI系统的长期目标是在美国部署,这意味着训练数据的司机样本数量有限。
- 数据集中代表的车辆类型较少,主要是轿车、紧凑型车或SUV,跑车或卡车的内饰不同,可能影响误报或漏报的预测。
- 数据集中未涵盖一些驾驶时的分心活动,如吃冰淇淋、观看车外事件、整理头发等。
- 数据集中所有司机都穿着城市风格的服装,更精致或具有民族特色的服装风格可能导致AI出现误报或漏报。
- 该系统的目标是拯救生命,因此可能存在系统性偏差,即能否让所有人都能负担得起使用该系统,而不仅仅是精通技术的城市精英。
2. 耐克鞋数据集偏差分析
耐克鞋数据集被选中是因为它展示了不同的偏差。该数据集包含文件夹中的图像,没有CSV文件。以下是处理该数据集的步骤:
# 1. 提取数据
fname='https://www.kaggle.com/datasets/die9origephit/nike-adidas-and-converse-imaged'
pluto.fetch_kaggle_dataset(fname)
# 2. 将元
超级会员免费看
订阅专栏 解锁全文
6937

被折叠的 条评论
为什么被折叠?



