研究背景
计算机三大热门方向:计算机视觉、自然语言处理(NLP)以及语音识别
计算机视觉研究方向:
物体识别和检测
找出图片中常见的物体,并将其类别和位置输出,比如:人脸检测,车辆检测
识别:分类出哪些样本是目标
检测:从随机有干扰的图片中检测出有信息的特征
词义分割
对图像中的每个像素点进行分类,相当于对图片中的目标进行分割
运动和跟踪
在视频开始时给出目标的位置以及尺寸,然后在视频后续中对其进行追踪
视觉问答
目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答
物体检测的意义
研究角度看,是计算机视觉的根本问题之一,是很多高层视觉任务的基础
高层视觉任务:人脸识别、行人再辨识、目标跟踪、图像分类
应用角度看,已经表示出广泛的应用需求
物体检测应用:人脸解锁、视频监控、出入口人数统计、辅助驾驶、自动驾驶
发展脉络
单阶段法只需要对锚框进行一次矫正就能得到最终结果,而多阶段法需要多次矫正。
传统方法
利用手工特征+分类器,以滑窗方式在图像金字塔上遍历所有位置和大小,进行物体检测
滑窗方式遍历所有的位置,图像金字塔遍历不同大小
常用数据集
通用物体检测数据集
人脸检测数据集