10、机器学习数据集处理与构建全解析

机器学习数据集构建与处理指南

机器学习数据集处理与构建全解析

1. 异常值与数据集的重要性

在处理数据时,异常值是一个需要关注的重要方面。异常值通常是指那些超出特定范围的数据点,这个范围一般由四分位距(IQR)来界定。例如,在一个标准化特征的箱线图中,箱线图上下的两条线被称为须线,须线的位置分别是$Q1 - 1.5 × IQR$和$Q3 + 1.5 × IQR$,超出这个范围的值就被认为是异常值。

查看异常值是很有帮助的,因为它们可能是数据录入时的错误。不过,无论对异常值采取何种处理方式,都需要有合理的解释。同样,对于有缺失值的样本,在决定是否删除时,要确保没有系统性误差导致数据缺失,并且不会因为删除这些样本而引入偏差。

我们来看两个有趣的案例,它们展示了模型可能会学到一些我们意想不到的东西:
- 坦克识别案例 :早期的神经网络被用于区分坦克和非坦克图像。在测试时,该网络表现良好,但在实际应用中,识别率却大幅下降。后来发现,坦克图像是在阴天拍摄的,非坦克图像是在晴天拍摄的,所以网络实际上学习到的是阴天和晴天的区别,而不是坦克和非坦克的区别。
- 哈士奇与狼识别案例 :研究人员训练了一个模型来区分哈士奇和狼的图像,模型看起来效果不错。但进一步分析发现,网络学习到的是狼的图片背景有雪,而哈士奇的图片背景没有雪,并非真正学会了区分哈士奇和狼。

这些案例告诉我们,在处理数据时要仔细思考,警惕模型可能产生的意外结果。同时,训练集需要包含模型在实际应用中会遇到的所有情况。

2. 构建数据集的实践

2.1 鸢尾花数据集

鸢尾花数据集是机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值