计算机视觉:图像分类、目标检测、图像分割、风格迁移、图像重构、超分辨率、图像生成、人脸等。视频中的图片处理也隶属于计算机视觉研究对象,包括视频分类、检测、生成等。
1. YOLO (You Only Look Once)
You only look once (YOLO) is a state-of-the-art, real-time object detection system.是最先进的实时对象检测系统
2. YOLO 版本 --- V1..V5
3. YOLO 算法思想
--一个深度学习神经网络模型的构成:
-前向传播部分:90%
-损失函数部分
-反向传播部分
--神经网络模型结构大致样子:
- 分类器:img --> cbrp16--> cbrp32--> cbrp64--> cbrp128--> ...--> fc256-fc[10]
- cbrp指的是conv,bn,relu,pooling的串联。2个fc层(fully connencted layer),我们称之为“分类头”或者“决策层”。
--分类器和检测器的输入输出有什么不一样:
-相同点:两者输入都是图像Image
-不同点:输出不一样,分类器(one-hot vector);检测器(一个框-Bounding box)
--图片的Bounding box框相关:
-x,y,w,h
-p1,p2,p3,p4(4个点坐标)
-cx,cy,w,h(cx,cy为中心点坐标)
-x,y,w,h,angle(还有的目标是有角度的,这时叫做Rotated Bounding Box)......
--进化的分类器模型(YOLO V0):img --> cbrp16--> cbrp32--> cbrp64--> cbrp128--> ...--> fc256-fc[5] --> c,x,y,w,h
--conv(卷积)操作是位置强相关的,就是原来的目标在哪里,你conv之后的feature map上还在哪里,所以图片划分为16个区域,结果也应该分布在16个区域上
--检测框结构筛选:聚类、NMS(非极大值抑制:交并比IoU=两个框的交集面积/两个框的并集面积)。 1图多目标检测时用NMS
--进化的分类器模型(YOLO V1):img --> cbrp16--> cbrp32--> cbrp64--> cbrp128--> ...--> fc256-fc[5+2]*N --> [c,x,y,w,h,one-hot]*N
--滑动窗口分类方法:标注框、检测框滑动遍历图片。
--前置:R-CNN 到Faster R-CNN一直采用的思路是Proposal + 分类,前者提供图像位置信息,后者提供类别信息,虽然精度已经很高,但因为是two-stage的方法,其中Proposal过程耗费时间比较多;faster-RCNN 中也直接用整张图作为输入,但是 faster-RCNN 整体还是采用了RCNN 那种 proposal+classifier 的思想,只不过是将提取 proposal 的步骤放在 CNN 中实现了,而 YOLO 则采用直接回归的思路。因而总体处理速度不太理想,达不到实时处理的效果。
--YOLO 模型的思路比较直接:在输出层直接进行“回归(动词)”Bounding Box的位置和Bounding Box所属的类别;进化成把整张图作为网络的输入,因此把目标检测的问题转化成了一个回归问题。
--YOLO的实现方法:将一幅图像分成 SxS 个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个 object。每个网格要预测 B 个 bounding box,每个 bounding box 除了要回归自身的位置之外,还要附带预测一个 c

本文详细介绍了YOLO系列从YOLOV0至YOLOV5的发展历程,包括各版本的算法思想、模型结构特点及改进之处。从单目标检测到多目标检测,再到实时高速检测,YOLO系列不断演进,成为计算机视觉领域的重要算法之一。
最低0.47元/天 解锁文章
5608

被折叠的 条评论
为什么被折叠?



