如何制作和训练自己的数据集（YoloV5）_怎么训练数据集-优快云博客

本文链接：https://blog.youkuaiyun.com/Stu_art/article/details/121217665

这篇博客介绍了数据标注的三种方法：全人工、半人工和使用仿真数据集（GAN）。提到了常用的标注工具CVAT和makesense.ai，并详细阐述了使用makesense.ai进行标注的步骤。此外，还讲解了训练数据的组织方式、训练模型的配置以及训练和测试模型的过程。最后，分享了PyCharm中管理大量文件的技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标注方法

1 自己获取的数据集，人工进行标注（全人工）
2 自己获取的数据集，首先使用训练好的网络标注一遍，然后手动进行微调（半人工）
3 仿真数据集（GAN网络来生成自己的数据集-- synthetic data）

标注工具

1 CVAT（需要安装）
2 makesense.ai（在线标注工具）

makesense.ai 标注过程

1 输入图片
在这里插入图片描述

2 选择Object Detection
在这里插入图片描述

3 创建自己的分类
4 根据自己的分类开始进行标注（标注的时候也可以使用action中的load models进行半人工标注）
在这里插入图片描述

5 导出文件（action-》export annotation-》yolo format）

文件组织过程

1 将images和labels分别放入对应的文件夹中
在这里插入图片描述

2 参照coco.yaml，写自己数据集的配置

# train and val data as 1) directory: path/images/, 2) file: path/images.txt, or 3) list: [path1/images/, path2/images/]
train: mydata/images/train
val: mydata/images/train

# number of classes
nc: 3

# class names
names: [ 'person', 'car', 'bike' ]

3 修改train.py中的--data参数

parser.add_argument('--data', type=str, default='mydata/mydata.yaml', help='data.yaml path')

4 运行train.py开始训练
在这里插入图片描述

5 使用detect测试自己训练的模型
修改detect 中的权重文件为自己训练的模型（一般问train当中最新的那个exp）
在这里插入图片描述

tips

1 pycharm左侧工程目录文件个数太多了会占用大量的资源（需要检索）
2 可以右键文件夹，在此处选择exclude，则可以节省资源
在这里插入图片描述

3 需要有路径的地方，只要路径正确， exclude的文件依然可以找到，知识在目录视图中找不到