作者:禅与计算机程序设计艺术
1.简介
计算机视觉中的多尺度目标检测(multiscale object detection)算法一直是研究热点之一,也被称作多目标检测、多尺度分割或多层次分割。该方法通过对图像不同尺寸的特征图进行检测和分割,从而可以实现端到端的目标检测任务。目前主流的多尺度目标检测算法主要分为两类:第一类是基于特征的算法,如基于卷积神经网络的SSD;第二类是基于空间位置关系的算法,如R-CNN、YOLO等。本文将以R-CNN为代表的基于空间位置关系的算法进行讲解,并结合SSD进行对比分析,对其进行更进一步的深入剖析。本文还会讲解一些R-CNN所需的预训练模型,以及后处理技巧。
本文假定读者已经具有计算机视觉、机器学习、深度学习相关知识,熟悉基本的图像处理、物体检测、分类、回归等知识。
本文采用深度学习框架PyTorch进行编程实践,阅读本文之前,请确保读者已正确安装配置好相应的环境,并能够正确运行样例代码。
作者:刘鑫明()
2019/7/23
2.基本概念及术语说明
2.1 多尺度目标检测
多尺度目标检测是指对图像不同尺度的特征图进行检测和分割,从而实现端到端的目标检测任务。传统的目标检测方法往往只能针对特定的感受野或感知域,但实际上很多目标在不同尺度