【论文阅读】Image Preprocessing for Efficient Training of YOLO

基于网络爬虫的YOLO训练数据集收集与预处理

最新推荐文章于 2025-04-24 23:38:15 发布

Skiery

最新推荐文章于 2025-04-24 23:38:15 发布

阅读量514

点赞数

CC 4.0 BY-SA版权

分类专栏：论文阅读

本文链接：https://blog.youkuaiyun.com/weixin_39228490/article/details/90261296

论文阅读专栏收录该内容

6 篇文章

订阅专栏

本文聚焦基于AI的目标检测，指出使用AI技术需大量训练数据，网上爬取的数据未标准化无法直接训练。提出一种系统，可直接用网页爬虫爬取用于YOLO训练的数据集，介绍了YOLO特点及目标裁剪和重定位管理的系统设计，能将爬取图片处理成适合YOLO训练的数据形式。

1.简介

人工智能在近期已经获得了许多不同领域的关注。尤其是基于AI的目标检测，和其他任何形式的技术如模板匹配、SURF相比，他的速度，准确率和灵活性首屈一指。
然而使用基于AI的技术也很困难，在理解并装配AI系统的过程中存在许多问题。最大的挑战就是使用AI的前提，需要大量的训练数据。一般情况下，AI技术中训练数据和所要识别的目标之间有着显著的联系。为了从一段视频流中识别或者检测出一个物体，要用图片数据作为训练集。金玉不说，系统需要整形的非常好的图片大数据才能进行良好的训练。
大型图片数据集可以通过许多方式获取，但最经济的方式是在网上用爬虫获取。这样可以简单的获得许多数据，问题在于这种类型的数据没有标准化，无法直接用于训练。
本文提出了一种系统可以直接用网页爬虫爬取用于YOLO训练的数据集。

2.相关工作

现在，电脑可以模拟人类智能行为，因为人工智能可以模仿人类活体神经网络结构。一般人工神经网络用来实现深度神经网络DNN。像人类一样，他可以通过训练进行智能活动如判断、识别。
卷积神经网络 CNN 是从图中识别物体最强有力的深度神经网络。CNN在图片测试挑战中有很高的地位。但CNN只能在一幅图中识别单个物体，不能再同一幅图中识别不同的多个物体。
目标检测不仅需要识别物体现在有没有，还需要确定目标所在的具体区域并用边框将图中的多个物体分开。参考文献【Demuth, Howard B., et al. Neural network design. Chen, Liang-Chieh,
et al. “Deeplab: Semantic image segmentation with deep convolutional
nets, atrous convolution, and fully connected crfs.” arXiv preprint
arXiv:1606.00915 (2016).Martin Hagan, 2014.】指出了使用CNN特征图选择候选区域的搜索选择方法。在文章发表时很有新意，但在实际应用中存在许多问题。
近些年，针对物体检测速度、准确度的研究有许多。单图多边框检测试图将基于CNN的特征图应用在物体检测中。特征点在图中的小格子里形成，中心位于每个特征小格的目标边框决定了其检测所得为什么物体。SSD比Fast R-CNN块，但他的准确率因为每个小格预设好的anchor数量有限而偏低。
新算法yolo类似于SSD。不同于SSD，YOLO去掉了全连接层并把它换成了全卷积模型，并应用了硬阴性，即并不学习物体并不存在的位置。这个尝试提高了准确度了和速度。
巍峨获得YOLO的良好表现，我们需要使用大量符合YOLO标准的图片对YOLO进行训练。本文描述了一种通过YOLO特点，使用网络爬虫收集和预处理YOLO训练集的方法。这个系统让收集YOLO数据集和提高YOLO表现更容易。

3.系统设计

A.YOLO的特点

YOLO是最快的目标检测器，并且具有R-CNN的准确度。然而，为了获得目标检测的准确率，训练图片必须能反应YOLO所需的特征。
YOLO 使用基于CNN的目标识别机制，通过均分图片为1313个小格利用目标边框进行检测（anchor）。这意味着每张图需要预处理缩减到416416才能被训练和识别。这意味着训练数据集如果尺度差异很大的话，在图片识别中物体会出现严重的失真。（主要针对失真，并非小物体）
如果训练图片和需识别图片的比例不同，YOLO的表现会很差。在这种情况下，物体形状的失真也会出现。因此，只有当训练集和待检验尺寸相同的情况下，YOLO才会有好的表现。
因此很有必要理解好的检测率下anchor的特点。anchors在训练和检测中被设定为固定的比例。锚框以启发的方式定义，通常通过观察训练图片中的物体形状使用K-means聚类算法进行计算。换言之，保证每个被检测物体在训练和检测过程中占据相似比例是很重要的一点。
预训练过程总结：
1.所有训练和检测图片大小应该一致。
2.图片中物体占据不同区域的大小应该相似。

B.目标裁剪和重定位管理

该系统是一个用于YOLO训练的图片预处理器，所有的训练图片均用网络爬虫获取。这意味着，所有的目标都从爬取的图片中获取并且在新的图片中重新定位，确定哪部分相似的区域应该进行检测。系统的结构如下所示：在这里插入图片描述
每张爬取的图片都有一个或多个目标，并且标注了这些目标的大小、位置、种类等，如卡车，汽车等等。这意味着系统完成后即可运行。
1.图片采集：该子系统从预先爬取的图片集中随机选取目标。首先，他随机选择物体的种类，在该类中选择选择图像，然后裁剪标注的区域。
2.尺寸调整：该子系统将图片采集器得到的结果调整到合适的尺寸大小。通常爬取的图片很大，因为大多爬取的物体都是单物体图片。合适的大小通常取决于目标在识别时表现的大小。
3.图片制作：在这一步，调整后的目标图片被粘贴进基础图片。基础图片有着相似的背景和大小。基础图片和被检测图片有同样的大小和相似的背景。在一个基础图片中，一个或者多个目标被随机放置。
4生成标注：该子系统负责标注新放置的目标在基础图片中的位置和大小。这些标注可以通过1-3的步骤计算获得。
该四步如下所示：
在这里插入图片描述
图像选择器从注释区域剪切对象原始图像集，然后再尺度调整器中减小目标的大小，减小大小是为了匹配被检测和训练的物体大小。
图像选择器选取一个基础图片然后随机选择位置放置在不同位置。最重要的是每个物体不应该重叠。
最终，标注器重新计算物体的位置，大小，种类生成标注。
通过重复该过程，爬取的图片可以重新处理为适应YOLO进行训练的数据形式。此外，因为图片可以生成，所以可以获得更多的训练用数据。