自动查找并修正机器学习数据集中错误的标签: Cleanlab v2.0

cleanlab 2.0版本发布,这是一个利用机器学习算法自动检测并修正数据集错误标签的工具。已应用于平安、Amazon、富国银行等公司,提供了一行代码解决数据集问题、改善分类模型、合并/删除重复数据及衡量数据集健康状况的功能。cleanlab决定开源,以帮助更多数据科学家。更多信息可在官方博客、GitHub和NeurIPS演讲中获取。

网友们,我们最近发布了 cleanlab 2.0版本,cleanlab 将利用机器学习算法自动查找并分析真实世界的数据集中错误的数据标签,再将其做出修正。 简单来说,cleanlab 为与数据标签有关的AI程序提供更高效的框架。

去年1.0版本发布后,中国平安的工程师们在cleanlab的帮助下为稳建模型进行电子商务产品分类。Amazon的工程师们则利用cleanlab来对Alexa设备不被唤醒的几率进行估计。富国银行(Wells Fargo)也使用 cleanlab 研发可靠的财务预测模型。此外,cleanlab也在Microsoft、Tesla、腾讯(Tencent)等公司给予贡献。

为了让所有数据学家可有效地使用cleanlab,我们重建了2.0版本。目前新版本可用于任何机器学习分类数据集与模型。在面对要让 cleanlab 成为拥有专属权的专有软件或是开放于大众的开源软件的问题时, 我们仨决定将 cleanlab 开源化,并至此至终没有一丝反悔。

以下显示一些 2.0 版本公开的新开源功能(大多是一行代码):

  1. 在数据集中查找相关问题并按数据点的质量进行排名
  2. 改善任何有数据集标签问题的分类模型
  3. 查找并合并/删除数据集内出现重叠的数据
  4. 衡量数据集的整体标签健康状况

一行代码识别问题数据:

from cleanlab.classification import CleanLearning
# labels = 噪声标签
issues = CleanLearning(y
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值