标签错误清理工具——CleanLab Label Errors 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00363/article/details/147317671

标签错误清理工具——CleanLab Label Errors 使用教程

label-errors 🛠️ Corrected Test Sets for ImageNet, MNIST, CIFAR, Caltech-256, QuickDraw, IMDB, Amazon Reviews, 20News, and AudioSet 项目地址: https://gitcode.com/gh_mirrors/la/label-errors

1. 项目介绍

CleanLab Label Errors 是一个开源项目，旨在为常见的机器学习基准测试集提供工具，以清理和纠正标签错误。这些测试集包括 ImageNet、MNIST、CIFAR-10、CIFAR-100、Caltech-256、QuickDraw、IMDB、Amazon Reviews、20News 和 AudioSet。项目基于自信学习（confident learning）原理，使用 CleanLab 包来发现并纠正标签错误。

2. 项目快速启动

以下步骤将帮助您快速启动并使用 CleanLab Label Errors。

首先，确保安装了 CleanLab 包：

pip install cleanlab

然后，以下载和准备 MNIST 数据集为例：

from torchvision import datasets
import os

# 设置数据存储路径
data_dir = 'path_to_store_the_dataset'

# 获取测试集
test_data = datasets.MNIST(data_dir, train=False, download=True).data.numpy()
test_labels = datasets.MNIST(data_dir, train=False, download=True).targets.numpy()

# 如果需要获取训练集
train_data = datasets.MNIST(data_dir, train=True, download=True).data.numpy()
train_labels = datasets.MNIST(data_dir, train=True, download=True).targets.numpy()

接下来，使用 CleanLab 的工具来发现和纠正 MNIST 测试集中的标签错误。具体的代码实现可以根据 CleanLab 的文档和示例来进行。