基本概念
Image pyramid(图像金字塔)
图像金字塔是图像多尺度表达的一种,是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。
FPN(特征金字塔)
主要解决的是物体检测中的多尺度问题,在基本不增加原有模型计算量的情况下,通过简单的网络连接改变,大幅度提升了小物体的检测性能。
Sliding Window(滑动窗口)
滑动窗口的核心思想是通过在数据结构上维护一个窗口,来逐步计算目标结果。窗口可以是固定大小的,也可以是可变大小的。
MTCNN中使用了滑动窗口的思想,利用卷积核的滑动方式,对图像进行多次提取。但在面对被检测物体大小远大于或远小于卷积核大小时,需要用到图像金字塔,在指定缩放比例以及最小图片尺寸后,将原图设置为图像金字塔底层,然后逐层缩放,在图像金字塔的每一层都用滑动窗口扫描,这样就能对各个位置、各个尺寸的物体进行识别。
bbox/bounding box(边界框)
来表示物体的位置,边界框是正好能包含物体的矩形框。
Anchor(先验框)
在图像上预设好的不同大小,不同长宽比的参照框,将这些框当成可能的候选区域。
IoU(交并比)
在目标检测任务中,通常会使用交并比作为衡量指标,来衡量两个矩形框之间的关