大家好,YOLO(You Only Look Once)是一种流行的目标检测库,它的第一个版本在2015年发布。YOLO工作速度很快,提供了良好的结果,而且预训练模型是公开可用的。该模型迅速变得流行,该项目至今仍在积极改进,这使我们有机会看到数据科学工具和库如何在多年间演变。本文将测试不同版本的YOLO,从最初的V1到最新的V8。
为了进行进一步的测试,将使用这张图片:
YOLO V1到V3
关于YOLO的第一篇论文,“You Only Look Once: Unified, Real-Time Object Detection”,于2015年发布。YOLO v1仍然可以下载,正如原始论文的作者之一Redmon所写的,他保留了这个版本“出于历史目的”。该模型以两个文件的形式分发,配置文件“yolo.cfg”包含有关神经网络模型的详细信息:
[net]
batch=1
height=448
width=448
channels=3
momentum=0.9
decay=0.0005
...
[convolutional]
batch_normalize=1
filters=64
size=7
stride=2
pad=1
activation=leaky
第二个文件“yolov1.weights”,顾名思义,包含了预训练模型的权重。
这种格式不是来自PyTorch或Keras,该模型是使用Darknet创建的,Darknet是一种用C编写的开源神经网络框架。这个项目仍然可以在GitHub上找到,但它看起来已经被抛弃。在撰写本文时,有164个拉取请求和1794个未解决的问题,最后一次提交是在2018年,之后只有README.md文件有所更改。
原始的Darknet项目被抛弃了,不过readNetFromDarknet方法仍然在OpenCV中可用,甚至在最新的OpenCV版本中也存在。因此可以尝试使用Python环境加载原始的YOLO v1模型:
import cv2
model = cv2.dnn.readNetFromDarknet("yolo.cfg", "yolov1.weights")
运行得到如下错误:
darknet_io.cpp:902: error:
(-212:Parsing error) Unknown layer type: local in function 'ReadDarknetFromCfgStream'
原来“yolo.cfg”中有一个名为“local”的层,这是OpenCV不支持的。YOLO v2配置