多目标检测

李峻枫

于 2022-07-24 20:25:35 发布

阅读量3.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：笔记 # 神经网络文章标签：目标检测计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lijf2001/article/details/125963489

图像分类

这是最简单的情形，只需要判定一张图片是属于哪一个类别即可。这种图像往往有一个非常显著的特殊，就是图像主体清晰且突出。
但是日常生活中这类图像并不多，更多的是一张图片中包含了多个主体，此时单纯的目标分类就无法满足了，需要使用多目标检测。

多目标检测

顾名思义，其的作用就是检测一个图片上的多个目标，它不仅仅能把目标找到（该目标在图像中的位置），还能给出其的具体类别。

锚框

这是一个框住目标物体的框，一般通过二维坐标来表示。
锚框生成有多种算法，但是生成的锚框质量好坏就决定着算法的整体性能。

类别检测

相比于图像分类，只输出一个对应的类别，多目标检测需要输出更多的东西。
一个显而易见的事情，并不可能枚举出所有的锚框，并对其一一进行检测。那么对于有限个锚框，如何来表示图片中无数种锚框的可能？这里就需要用到一个偏移，也就是预测的锚框位置与当前检测锚框的差别。

如何理解这个偏移？
假设现在锚框框住了一朵向日葵的大部分，如下图（红色的框）：

对于图像分类来说，大部分的向日葵足以完成分类，即它可以给出一个标签。但是此时还需要一个偏移，红色框与黑色框之间的差别。也就是说，神经网络还需要学习一种推断能力：从大半朵向日葵中推断出整朵向日葵所处在的位置。

训练

相比于图像分类，多目标检测的样本可谓是更少了，因为它的标注成本更高，因此利用好手中的数据也是同样重要。
对于图像分类部分，即给出标签的网络，往往是利用现有的图像分类模型。
对于偏移部分，可以对一张

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。