第二十五篇:Python 进阶-计算机视觉实战
1. 图像分类实战
构建图像数据集
构建一个图像数据集是图像分类任务的基础,以下是构建图像数据集的一般步骤:
数据收集
- 确定数据源:可以从公开数据集(如 CIFAR-10、MNIST、Caltech 101/Caltech 256 等)获取数据,也可以自行收集图像数据。自行收集时,可以使用网络爬虫从图片分享网站(如 Flickr、百度图片等)下载相关图片,但要注意版权问题。
- 确定类别:明确要分类的图像类别,例如在一个花卉分类项目中,类别可以是玫瑰、郁金香、百合等。
数据整理与标注
- 整理文件夹结构:通常按照类别将图像整理到不同的文件夹中。例如,创建一个根目录
flower_dataset
,在其下分别创建rose
、tulip
、lily
等文件夹,将对应的花卉图像分别放入这些文件夹。 - 标注数据(如果需要):对于一些复杂的任务或自定义数据集,可能需要进行标注。标注工具如 LabelImg(用于边界框标注,适用于目标检测,但在某些图像分类场景下也可能用于标记感兴趣区域)。不过,对于简单的图像分类,基于文件夹的分类方式