图像分类
这是最简单的情形,只需要判定一张图片是属于哪一个类别即可。这种图像往往有一个非常显著的特殊,就是图像主体清晰且突出。
但是日常生活中这类图像并不多,更多的是一张图片中包含了多个主体,此时单纯的目标分类就无法满足了,需要使用多目标检测。
多目标检测
顾名思义,其的作用就是检测一个图片上的多个目标,它不仅仅能把目标找到(该目标在图像中的位置),还能给出其的具体类别。
锚框
这是一个框住目标物体的框,一般通过二维坐标来表示。
锚框生成有多种算法,但是生成的锚框质量好坏就决定着算法的整体性能。
类别检测
相比于图像分类,只输出一个对应的类别,多目标检测需要输出更多的东西。
一个显而易见的事情,并不可能枚举出所有的锚框,并对其一一进行检测。那么对于有限个锚框,如何来表示图片中无数种锚框的可能?这里就需要用到一个偏移,也就是预测的锚框位置与当前检测锚框的差别。
- 如何理解这个偏移?
假设现在锚框框住了一朵向日葵的大部分,如下图(红色的框):
对于图像分类来说,大部分的向日葵足以完成分类,即它可以给出一个标签。但是此时还需要一个偏移,红色框与黑色框之间的差别。也就是说,神经网络还需要学习一种推断能力:从大半朵向日葵中推断出整朵向日葵所处在的位置。
训练
相比于图像分类,多目标检测的样本可谓是更少了,因为它的标注成本更高,因此利用好手中的数据也是同样重要。
对于图像分类部分,即给出标签的网络,往往是利用现有的图像分类模型。
对于偏移部分,可以对一张