2022-03-04-Label-Noise-Learning

最新推荐文章于 2024-12-08 23:06:13 发布

deepindeed

最新推荐文章于 2024-12-08 23:06:13 发布

阅读量1.2k

点赞数 1

文章标签：机器学习人工智能深度学习算法大数据

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/cwlseu/article/details/125225329

版权

本文探讨了深度学习中噪声标注数据对模型泛化能力的影响，介绍了几种应对策略，包括NAF、AUM、早停和SOP方法，旨在减少噪声标签对模型优化的负面影响，提升模型的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

layout

comments

title

categories

tags

description

post

true

Label Noise Learning

blog

自然语言处理

Label Noise Learning

Label Noise Learning

@(NLP)[噪声, 主动学习]

[TOC]

序言

过参数化在深度学习时代常常被提到，它的神经网络参数个数甚至超过了 training sample 的个数，在实验中也体现出了非常好的效果。但是，一旦training samples中带有一些噪声，整个模型就趋向于过拟合，没有办法很好地泛化到测试集。一般而言，training samples带噪声的方式有两种，一是在 data points上加 Gaussian noise，二是 label noise. 我们这里主要探究第二种。

存在噪声标注数据

诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用，但是它们本身并不能完全克服在噪声数据上过拟合问题。 1、噪声的类别 (1) instance-independent label noise: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的，因为instance-dependent 建模比较复杂。

symmetric noise: 一个标签标错为其他类别的标签概率一样
asymmetric noise: 一个标签标错为其他类别的标签概率不一样
pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b)

(2) instance-dependent label noise 2、困难（1）深度学习模型因为其高阶的表达方式，更容易受到label noise的影响。

3、要获得一个鲁棒性的模型，方法可以大致分为三类：（1）设计使用好的损失函数（2）训练方式: Training architectures methods （3）减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。

4、常用概念

Label Transition

Memorization Effect

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。