【文章解读】FreeAnchor: Learning to Match Anchors for Visual Object Detection

最新推荐文章于 2024-04-14 09:32:31 发布

Jie Ou

最新推荐文章于 2024-04-14 09:32:31 发布

阅读量1.7k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：目标检测深度学习文章标签：自动驾驶 pytorch 深度学习目标检测

本文链接：https://blog.youkuaiyun.com/github_36923418/article/details/105318632

深度学习同时被 2 个专栏收录

48 篇文章

订阅专栏

目标检测

0 篇文章

订阅专栏

探讨FreeAnchor方法如何革新目标检测领域，通过改进传统Anchor分配机制，解决目标偏心和遮挡问题，提高检测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简介

这些年已经有不少基于深度学习的目标检测的文章了，从最开始的Anchor based 到后来的 Anchor Free。但是解读这篇文章，主要是由于他的出发点比较新颖---Free Anchor。

虽然叫Free Anchor，但是依然是Anchor based的方法，只不过他打破了一直以来的Anchor分配机制。

二、回顾Anchor分配机制

上图是来自于SSD的分析，对于不同尺度大小的feature map，每个pixel都会负责预测k个框，这个k就是预先设置好的Anchor数量，图中的虚线框也就是anchor。

以前，在进行对于所有预测出来的结果box，进行loss计算的时候，会将anchor+偏移=结构box，与groundtruth进行比对，这个比对的过程就是利用IoU，只要预测框与目标物体的框IoU达到了一定阈值，那么这个框就算是正样本，当然如果一个anchor与多个目标物体都达到了阈值怎么办？直接选IoU最大的就好了！

其他的都是负样本～～～，当然训练过程中会设置正负样本的比例，因为通常负样本会很多！

这个方式，看似非常的合理，并且一直沿用至今，实际应用中也是非常有效的！但是这个方式毕竟也是经验式的！

大家可以看下面这例子：

看完这两张图，想必大家不说也懂我想说什么了！！！！！嗯～～～～，词穷～～～～！因为现实世界中很多的目标物体，并不是规则，比如月亮，他们是偏心的！这也就导致了越是中心的点的feature 越是背景！无法代表这个目标，红色框与绿色框虽然IoU很高，如果按照传统方式判定为正样本！显然不好！

三、回到文章中来

在文章中，把传统的Anchor分配方式称之为“IoU restriction”！文章对于传统方式给出了两方面的评价：1、并不是所有的目标物体都是规则的，很多时候物体是偏心的，瘦长的！或者说物体会被遮挡，比如图像中猫挡住了笔记本电脑，导致了笔记本电脑属于偏心的目标！2、On the other hand, it is infeasible to match proper anchors/features for objects using IoU when multiple objects come together.我感觉这句话有点重复吧，总之就是说传统的方式不灵活！毕竟对于不灵活，不智能的点进行优化，基本上都能提升效果！

文章提出了自己的方法，并且把这个方式和损失函数联系起来，从而可以优化！和损失函数联系起来的方式叫“极大似然估计”，添加上负号和log，就得到了可以最小化的损失！

上图中，上半部分是传统的anchor分配方式，基于这种方式无论这个pixel位置是否包含了“有效特征”，只要IoU达到了就是正样本！在计算损失函数的时候，就比必须带上它！这个时候，基本上我们也就发现问题了：引入了基于背景特征的正样本！强行让背景信息预测！

这个公式就是传统的训练损失，A是anchor的集合，A_代表饿了没有配上正样本的那些，因此就是负样本。B代表了label中的目标全体，Cij则是0，1值，用于表示第i个目标和第j个anchor配上了。分类用BCE损失，回归用SoomthL1.

在本文中，利用极大似然的想法来建立损失函数：因此上面的损失函数就可以转换为如下公式：

四、文章核心

上面的公式中，“类别”和“回归”这两部分是分开计算的！本文的以思想就是，一个pixel位置是否能够预测box，应该具有两个特点：“能够拥有高的分类置信度” 以及 “框的IoU也高”。

引入这两个公式，对应了常会用到的：召回率与精度，两个指标。对于召回率而言，需要为每个目标都能提供至少一个anchor，并且基于这个anchor的两类特性都应该接近对应的label。对于精度而言，“classify the anchors of poor localization into the background class”