自适应缺陷数据，业务场景下的神经网络训练方法

最新推荐文章于 2023-09-23 14:59:00 发布

qwefgh123321

最新推荐文章于 2023-09-23 14:59:00 发布

阅读量980

点赞数

文章标签：神经网络腾讯

本文链接：https://blog.youkuaiyun.com/qwefgh123321/article/details/106676606

版权

本文探讨了在现实业务场景中，神经网络如何应对标签噪音问题，分析了不同的带噪学习方法，如MAE、CE和GCE损失函数，以及Co-teaching和Asymmetric Co-teaching策略。此外，还介绍了协作学习在提升网络表达能力中的应用，如Deep Mutual Learning和Filter Grafting，以及新的DGD框架，以提高模型在真实数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击观看大咖分享

深度学习的成功建立在大量的干净数据和深度模型基础上，但是在现实场景中数据和模型往往不会特别理想，比如数据里存在很多标签噪音，或者考虑到模型的推理速度，神经网络的层数不够深等。特别是对于业务场景，数据往往存在很多缺陷，因此让模型能够自适应的从缺陷数据里学习是业务成功的保障。

定义带噪学习目标

现实数据中存在的标签噪音（label noise）根据Feature可以分成两种：Feature independent noise和 Feature dependent noise。Feature independent noise是与特征无关的，比如将一只狗的图片误标记成汽车，狗和汽车没有什么相似特征，所以属于这类。Feature independent noise是与特征有关的，比如说狗和狼具有很多相似特征属性，标注人员可能把狗误标记成狼，那就属于这类。其实现实场景更多存在都是feature dependent noise。

噪音普遍存在，所以我们需要训练神经网络进行带噪学习，并且要能实现比较好的性能。那么noise label learning的目标是设计一个loss function，使得在noisy labels下训练得到的解，在性能上接近在clean labels下训练得到的解。

各有千秋：主要带噪学习方法分析

关于带噪学习，近些年有一些重要论文。AAAI 2017年发表的这篇研究说明，MAE以均等分配的方式处理各个sample，而CE（cross entropy）会向识别困难的sample倾斜。因此，针对noisy labels，MAE比CE更加鲁棒，不容易让模型过拟合到label noise上。

当然，CE也有自身优势。2018年的这篇文章是接着前面一篇文章往下做的。这篇文章指出，MAE虽然比CE在noisy label更加鲁棒，但是CE的准确度更高，拟合也更快。

那么，如何结合CE和MAE的优势呢？这篇文章提出这样一个loss function，也就叫做GCE loss（Generalized Cross Entropy loss）。它如何结合二者的优势？这里q是一个0到1之间的超参数，当q趋近于0的时候，这个Lq就退化成了一个CE loss，当 q趋近于1时，Lq就退化成了MAE loss。所以在真实场景中，只要对q进行调整，就会让这个loss在一些noise label数据下有很好的表现。

还有的论文是基于信息论设计的loss function，Deterministic information loss。它的Motivation是想寻找一个信息测度（information measure）I。假设在I下任意存在两个分类器f、f'，如果在噪音数据集下，通过I, f比f'表现得更好，那么在干净数据集下，f比f'表现得也好ÿ

最低0.47元/天解锁文章