点击观看大咖分享
深度学习的成功建立在大量的干净数据和深度模型基础上,但是在现实场景中数据和模型往往不会特别理想,比如数据里存在很多标签噪音,或者考虑到模型的推理速度,神经网络的层数不够深等。特别是对于业务场景,数据往往存在很多缺陷,因此让模型能够自适应的从缺陷数据里学习是业务成功的保障。
定义带噪学习目标
现实数据中存在的标签噪音(label noise)根据Feature可以分成两种:Feature independent noise和 Feature dependent noise。Feature independent noise是与特征无关的,比如将一只狗的图片误标记成汽车,狗和汽车没有什么相似特征,所以属于这类。Feature independent noise是与特征有关的,比如说狗和狼具有很多相似特征属性,标注人员可能把狗误标记成狼,那就属于这类。其实现实场景更多存在都是feature dependent noise。
噪音普遍存在,所以我们需要训练神经网络进行带噪学习,并且要能实现比较好的性能。那么noise label learning的目标是设计一个loss function,使得在noisy labels下训练得到的解,在性能上接近在clean labels下训练得到的解。
各有千秋:主要带噪学习方法分析
关于带噪学习,近些年有一些重要论文。AAAI 2017年发表的这篇研究说明,MAE以均等分配的方式处理各个sample,而CE(cross entropy)会向识别困难的sample倾斜。因此,针对noisy labels,MAE比CE更加鲁棒,不容易让模型过拟合到label noise上。
当然,CE也有自身优势。2018年的这篇文章是接着前面一篇文章往下做的。这篇文章指出,MAE虽然比CE在noisy label更加鲁棒,但是CE的准确度更高,拟合也更快。
那么,如何结合CE和MAE的优势呢?这篇文章提出这样一个loss function,也就叫做GCE loss(Generalized Cross Entropy loss)。它如何结合二者的优势?这里q是一个0到1之间的超参数,当q趋近于0的时候,这个Lq就退化成了一个CE loss,当 q趋近于1时,Lq就退化成了MAE loss。所以在真实场景中,只要对q进行调整,就会让这个loss在一些noise label数据下有很好的表现。
还有的论文是基于信息论设计的loss function,Deterministic information loss。它的Motivation是想寻找一个信息测度(information measure)I。假设在I下任意存在两个分类器f、f',如果在噪音数据集下,通过I, f比f'表现得更好,那么在干净数据集下,f比f'表现得也好ÿ