Object detection 目标检测
图像分类与定位
之前我们学习到的输入一张图片,输出为图片的分类的方法都是image classification(图像识别),但有些时候,我们不仅要知道图像的分类,还需要知道目标所在的位置,这种任务叫作image classification and localization,另外有些时候,一张图片中含有多个目标,此时的任务叫作目标检测object detection。
在目标定位任务中,输出y的设定为:
特征点检测
输入一张图片,输出这张图片中的特征点。eg:输入一张图片,当图片中含有人脸时,我们需要标注出人的各眼角点,假设需要标注的有64个眼角点,每个点有一个横坐标和一个纵坐标组成,加上目标检测的pc点,一共的输出就是64×2+1=129个数字。
在一些图片处理软件中,比如抖音的变脸功能,实际上就是检测出人脸的各个部位,然后对各部位进行处理,因此就是一个目标定位的任务。
目标检测
目标检测怎么做?
首先在训练过程中,我们通过对图片进行剪裁得到视图基本为车辆的图片,输出为label Y=1,视图不为车的图片输出Y=0,对神经网络训练之后,得到参数。
在测试的时候,使用sliding window object detection algorithm,即滑动窗口目标检测:对于多目标的任务,我们就必须对一个图片使用滑窗处理,每次使用一个滑窗对一张图片进行逐个处理,下次使用一个更大的滑窗进行处理,依次下去。这样