一个丰富食物数据集的案例研究
介绍
几个月前,托洛卡和ClearML公司一起创建了此联合项目。 我们的目标是向其他机器学习的从业者展示从收集数据到将数据输入机器学习模型之前,如何对其进行版本化和管理。
我们相信,遵循这些最佳实践将帮助其他人构建更好、更强大的人工智能解决方案。 如果您也对此好奇,请查看我们共同创建的项目。
项目:食品数据集
我们能否丰富现有数据集并让算法学会识别新特征?
我们在Kaggle上找到了以下数据集,并很快确定它非常适合我们的项目。 该数据集由使用MyFoodRepo收集的数千张不同类型的图像组成,并已在Creative Commons CC-BY-4.0 许可下发布。您可以在官方食品识别基准论文中查看有关此数据的更多详细信息。
食品数据集预览 — 作者的照片
我们注意到,食物可以分为两大类:固体和饮料。
食物类型示例:出售和液体 — 作者的照片
此外,我们注意到有些食物……比另一种更可口。
食物类型的例子——作者的照片