如何为机器学习进行数据标签、版本控制和管理

本文通过一个食品数据集的案例,展示了如何使用托洛卡进行数据注释,通过ClearML进行数据版本管理和分析。通过创建注释项目、控制注释质量,然后利用ClearML进行数据管理,实现数据沿袭和实验比较,提升机器学习项目的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一个丰富食物数据集的案例研究

介绍

几个月前,托洛卡和ClearML公司一起创建了此联合项目。 我们的目标是向其他机器学习的从业者展示从收集数据到将数据输入机器学习模型之前,如何对其进行版本化和管理。

我们相信,遵循这些最佳实践将帮助其他人构建更好、更强大的人工智能解决方案。 如果您也对此好奇,请查看我们共同创建的项目。

项目:食品数据集

我们能否丰富现有数据集并让算法学会识别新特征?

我们在Kaggle上找到了以下数据集,并很快确定它非常适合我们的项目。 该数据集由使用MyFoodRepo收集的数千张不同类型的图像组成,并已在Creative Commons CC-BY-4.0 许可下发布。您可以在官方食品识别基准论文中查看有关此数据的更多详细信息。

 食品数据集预览 — 作者的照片

我们注意到,食物可以分为两大类:固体和饮料。

食物类型示例:出售和液体 — 作者的照片

此外,我们注意到有些食物……比另一种更可口。

食物类型的例子——作者的照片

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值