【手把手】如何使用置信学习cleanlab对数据集进行去噪

B站：阿里武

已于 2023-02-06 14:46:23 修改

阅读量9.1k

点赞数 12

分类专栏：自然语言处理文章标签：深度学习 pytorch 去噪

于 2021-09-08 10:51:02 首次发布

本文链接：https://blog.youkuaiyun.com/qq874455953/article/details/120174943

版权

自然语言处理专栏收录该内容

14 篇文章

订阅专栏

开源代码

https://gitee.com/qq874455953/cleanlab_nlp_keras/
目前可能是数据集选的不好，数据集本身没什么噪声所以有点小问题不过总体框架是搭建起来的

前言

在做一个项目的时候，发现数据集噪声非常多，项目是是一个文本分类问题，但是数据集中经常出现 label 错误的情况，也就是所谓的

label noise问题，在这样的数据集对模型进行训练效果非常差。关于label noise感兴趣可以看 Noisy Label 20 篇论文纵览，也是一个研究的热门方向，且对于工业界意义很大。

笔者在经过一些相关的调研之后，从实现难度，教程数量，原理理解这些方面角度，最终选取置信学习这种方式对数据集合进行去噪

置信学习相关介绍

那什么是置信学习呢？这个概念来自一篇由MIT和Google联合提出的paper：《Confident Learning: Estimating Uncertainty in Dataset Labels[1] 》。论文提出的置信学习（confident learning，CL）是一种新兴的、具有原则性的框架，以识别标签错误、表征标签噪声并应用于带噪学习（noisy label learning）

置信学习主要包括3个部分

Count：估计噪声标签和真实标签的联合分布
Clean：找出并过滤掉错误样本
Re-training：过滤错误样本后，重新训练

其中count 阶段

可以理解为找到可能是噪声的集合，
如何判断是否可能为噪声则是根据是否大于平均概率得到的，
平均概率则是所有label 为class a 的平均概率

例子：

类别0的平均概率则是mean([0.9 , 0.9, 0.5, 0.3, 0.3])

所以我们进行置信学习需要的有

每个样本在每个类别的概率 —> count 阶段用
每个样本实际属于哪个类别 —> count 阶段用

Clean阶段则是

对于Count 阶段得到的不可信集合中以一定的策略进行可信度排序
然后根据顺序取出最不可信的样本
文章给了5种策略感兴趣可以阅读https://zhuanlan.zhihu.com/p/146557232 这个作者的例子举的很好

置信学习开源工具：cleanlab

作者对这个置信学习框架进行了开源，地址如下

https://github.com/cgnorthcutt/cleanlab

文档地址如下：

https://l7.curtisnorthcutt.com/cleanlab-python-package

我们就是通过cleanlab 工具对带躁数据集合进行去噪声

实战

鉴于网上都没有给出完整的一个置信学习流程，而且有的话也是非常简略，什么参数都不告诉你怎么来的，特别是基于tensorflow pytorch kears 深度学习框架则是完全没有，唯一的一个详细的教程竟然需要收费。作者靠着自己的摸索，给出一个相对完整的教程，一起相互需学习。本文是使用keras 搭建的神经网络模型

如何去噪

官方原话：我们使用cheanlab。只需要一行代码即可对数据进行去噪

这一行代码如下

# Compute psx (n x m matrix of predicted probabilities) 
#     in your favorite framework on your own first, with any classifier.
# Be sure to compute psx in an out-of-sample way (e.g. cross-validation)
# Label errors are ordered by likelihood of being an error.
#     First index in the output list is the most likely error.
from cleanlab.pruning import get_noise_indices

ordered_label_errors = get_noise_indices(
    s=numpy_array_of_noisy_labels,
    psx=numpy_array_of_predicted_probabilities,
    sorted_index_method='normalized_margin', # Orders label errors
 )

numpy_array_of_noisy_labels ： 每个样本实际属于哪个类别

numpy_array_of_predicted_probabilities： 模型预测每个样本在每个类别的概率

sorted_index_method：选择是否是噪声数据的策略

1. 安装cleanlab

Pip install cleanlab

2. 计算概率

这里就学问大了，如何计算每个样本的概率呢，原文的说法是进行K轮交叉验证

K轮交叉验证的具体意思则是

把数据分为K份（这里我使用的是5。最好大于5）
其中选一份为测试集，其余K-1份为训练集，训练一个模型
把测试集输入训练的模型，得到测试集每个样本的预测每个类的概率得到我们需要的 每个样本在每个类别的概率
测试集每个样本自身的label 则是 每个样本实际属于哪个类别

这样通过K轮交叉验证我们得到了工具包所需的所有参数，具体怎么做可以看我开源的工程

BERT + mulit-CNN -> 文本分类

3. 调工具包得到噪声数据位置

# Compute psx (n x m matrix of predicted probabilities) 
#     in your favorite framework on your own first, with any classifier.
# Be sure to compute psx in an out-of-sample way (e.g. cross-validation)
# Label errors are ordered by likelihood of being an error.
#     First index in the output list is the most likely error.
from cleanlab.pruning import get_noise_indices

ordered_label_errors = get_noise_indices(
    s=numpy_array_of_noisy_labels,
    psx=numpy_array_of_predicted_probabilities,
    sorted_index_method='normalized_margin', # Orders label errors
 )