吴恩达深度学习笔记(66)-清除标注错误的数据

本文探讨了在深度学习中遇到的标注错误数据问题,特别是在训练集、开发集和测试集中。指出深度学习算法对随机错误有较强鲁棒性,但系统性错误可能导致问题。建议在开发集和测试集中修正错误标签,特别是当它们对评估算法性能有显著影响时。同时强调了修正数据时应同时处理开发集和测试集,以及检查正确和错误判断的样本,以避免对算法的偏差估计产生偏见。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

清除标注错误的数据(Cleaning up Incorrectly labeled data)

你的监督学习问题的数据由输入x和输出标签 y 构成,如果你观察一下你的数据,并发现有些输出标签 y 是错的,这些输出标签 y 是错的,你的数据有些标签是错的,是否值得花时间去修正这些标签呢?

吴恩达深度学习笔记(66)-清除标注错误的数据
我们看看在猫分类问题中,图片是猫,y=1;不是猫,y=0。

所以假设你看了一些数据样本,发现这(倒数第二张图片)其实不是猫,所以这是标记错误的样本。我用了这个词,“标记错误的样本”来表示你的学习算法输出了错误的 y 值。但我要说的是,对于标记错误的样本,参考你的数据集,在训练集或者测试集 y 的标签,人类给这部分数据加的标签,实际上是错的,这实际上是一只狗,所以 y 其实应该是0,也许做标记的那人疏忽了。

如果你发现你的数据有一些标记错误的样本,你该怎么办?

吴恩达深度学习笔记(66)-清除标注错误的数据
首先,我们来考虑训练集,事实证明,深度学习算法对于训练集中的随机错误是相当健壮的(robust)

只要你的标记出错的样本,只要这些错误样本离随机错误不太远,有时可能做标记的人没有注意或者不小心,按错键了,如果错误足够随机,那么放着这些错误不管可能也没问题,而不要花太多时间修复它们。

当然你浏览一下训练集,检查一下这些标签,并修正它们也没什么害处。有时候修正这些错误是有价值的,有时候放着不管也可以,只要总数据集总足够大,实际错误率可能不会太高。我见过一大批机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值