自适应缺陷数据,业务场景下的神经网络训练方法

本文探讨了在现实业务场景中,神经网络如何应对标签噪音问题,分析了不同的带噪学习方法,如MAE、CE和GCE损失函数,以及Co-teaching和Asymmetric Co-teaching策略。此外,还介绍了协作学习在提升网络表达能力中的应用,如Deep Mutual Learning和Filter Grafting,以及新的DGD框架,以提高模型在真实数据集上的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击观看大咖分享

深度学习的成功建立在大量的干净数据和深度模型基础上,但是在现实场景中数据和模型往往不会特别理想,比如数据里存在很多标签噪音,或者考虑到模型的推理速度,神经网络的层数不够深等。特别是对于业务场景,数据往往存在很多缺陷,因此让模型能够自适应的从缺陷数据里学习是业务成功的保障。

定义带噪学习目标

现实数据中存在的标签噪音(label noise)根据Feature可以分成两种:Feature independent noise和 Feature dependent noise。Feature independent noise是与特征无关的,比如将一只狗的图片误标记成汽车,狗和汽车没有什么相似特征,所以属于这类。Feature independent noise是与特征有关的,比如说狗和狼具有很多相似特征属性,标注人员可能把狗误标记成狼,那就属于这类。其实现实场景更多存在都是feature dependent noise。

噪音普遍存在,所以我们需要训练神经网络进行带噪学习,并且要能实现比较好的性能。那么noise label learning的目标是设计一个loss function,使得在noisy labels下训练得到的解,在性能上接近在clean labels下训练得到的解。

 各有千秋:主要带噪学习方法分析

关于带噪学习,近些年有一些重要论文。AAAI 2017年发表的这篇研究说明,MAE以均等分配的方式处理各个sample,而CE(cross entropy)会向识别困难的sample倾斜。因此,针对noisy labels,MAE比CE更加鲁棒,不容易让模型过拟合到label noise上。

当然,CE也有自身优势。2018年的这篇文章是接着前面一篇文章往下做的。这篇文章指出,MAE虽然比CE在noisy label更加鲁棒,但是CE的准确度更高,拟合也更快

那么,如何结合CE和MAE的优势呢?这篇文章提出这样一个loss function,也就叫做GCE loss(Generalized Cross Entropy loss)。它如何结合二者的优势?这里q是一个0到1之间的超参数,当q趋近于0的时候,这个Lq就退化成了一个CE loss,当 q趋近于1时,Lq就退化成了MAE loss。所以在真实场景中,只要对q进行调整,就会让这个loss在一些noise label数据下有很好的表现。

还有的论文是基于信息论设计的loss function,Deterministic information loss。它的Motivation是想寻找一个信息测度(information measure)I。假设在I下任意存在两个分类器f、f',如果在噪音数据集下,通过I, f比f'表现得更好,那么在干净数据集下,f比f'表现得也好ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值