图像识别技术与应用(14)-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_82217925/article/details/146171706

目标检测

识别图片中有哪些物体并且找到物体的存在位置’

多任务：位置 + 类别
目标种类与数量繁多的问题
目标尺度不均的问题
遮挡、噪声等外部环境干扰

目标检测的数据集

· VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

4大类，20小类
VOC 2007：9963图片 /24640目标
VOC 2012：23080图片 /54900目标
· COCO数据集：起源于微软2014年出资标注的MS COCO数据库。

包含20万个图像
80个类别
超过50万个目标标注
平均每个图像的目标数是7.2

目标检测的Ground Truth

目标检测的数据集

· VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

4大类，20小类
VOC 2007：9963图片 /24640目标
VOC 2012：23080图片 /54900目标
· COCO数据集：起源于微软2014年出资标注的MS COCO数据库。
包含20万个图像
80个类别
超过50万个目标标注
平均每个图像的目标数是7.2
目标检测的Ground Truth

类别+真实边界框坐标(x,y,w,h)
假设左图尺寸为1000*800px

Class	x	y	width	height
Dog	100	600	150	100
Horse	700	300	200	250
Person	400	400	100	500

YOLO(TXT)格式：

(x,y,w,h)

分别代表中心点坐标和宽、高

x,y,w,h均为归一化结果

VOC(XML)格式：

(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

COCO(JSON)格式：

(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高

目标检测的评估指标

· IoU：Intersection over Union

生成的预测结果会非常多
首先过滤掉低类别置信度的检测结果
使用IoU作为边界框正确性的度量指标

检测结果的类别

评价指标	解释	Ground Truth	预测结果	目标检测中的解释
TP	真的正样本	正样本	正样本	IoU>阈值
FP	假的正样本	负样本	正样本	IoU<阈值
TN	真的负样本	负样本	负样本
FN	假的负样本	正样本	负样本	漏检目标

Precision：准确率，查准率
Recall：召回率，查全率
P-R曲线
mean AP：每个类别所得到的AP的均值
Average Precision：11点法、近似面积法
· mean与average

mean：算数平均
average：包含其他的度量指标
Average P：P值需要设计度量规则让它均衡
mean AP：AP够均衡了，直接mean即可
· AP计算方法：11点法

R=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]
P=[1, 0.6666, 0.4285, 0.4285, 0.4285, 0, 0, 0, 0, 0, 0]

案例:

· 案例：

①根据IoU划分TP或者FP

· 案例：

②按置信度的从大到小，计算P和R

③绘制P-R曲线，进行AP计算

· 滑动窗口法

需要人工设计尺寸
大量冗余操作
定位不准确
· anchor box

anchor box用ratio+scale描述

feature map的点来决定位置
scale来表示目标的大小（面积大小）
aspect ratio来表示目标的形状（长宽比）

· anchor-base和anchor-free

anchor-base

anchor-base是自顶向下的
类似于传统方法，滑动窗口法穷举出许多，然后再根据置信度之类的进行筛选

anchor-free

anchor-free是自底向上的
想办法自动生成，不穷举
free掉了anchor的预设过程

· two stage算法流程

· one stage算法流程

· 常见two stage算法

经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN
其他：Cascade R-CNN、Guided Anchoring

· 常见one stage算法

YOLO系列：YOLO v1-v5
SSD系列：SSD、DSSD、FSSD
其他经典：RefineDet

非极大值抑制(Non-maximum suppression,NMS)

设定目标框的置信度阈值，常用的阈值是0.5左右
根据置信度降序排列候选框列表
选取置信度最高的框A添到输出列表，将其从候选框列表删除
候选框列表中的所有框依次与A计算IoU，删除大于阈值的候选框
重复上述过程，直到候选框列表为空，返回输出列表

图像识别技术与应用(14)

目标检测的数据集

目标检测的Ground Truth

目标检测的数据集

目标检测的Ground Truth

Class

x

y

width

height

目标检测的评估指标

评价指标

解释

Ground Truth

预测结果

目标检测中的解释

· one stage算法流程