FreeAnchor: Learning to Match Anchors for Visual Object Detection论文详解-优快云博客

介绍FreeAnchor算法，一种改进的目标检测方法，通过自定义检测似然函数优化召回率和精度，无需人工设置锚点，网络自主学习最佳匹配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://arxiv.org/abs/1909.02466
项目代码：https://github.com/zhangxiaosong18/FreeAnchor

问题

在基于anchor的目标检测算法中，训练时，通常通过anchor和真实object 框之间的IoU来决定该anchor是否用来预测object （包括类别和位置），通常IoU超过某一阈值则认为该anchor为正例（即作为预测object ），小于某一阈值则认为该anchor为背景。本文的思想就是通过修改loss函数去除人工参与指定anchor的过程，使网络能够自主学习选择哪个anchor和真实object 进行匹配。

通用loss函数

基于anchor算法常用的loss函数如下所示，A表示anchor集，每一个anchor $aj∈Aa_{j} \in A$ 包含了一个类别预测项 $ajcls∈Rka_{j}^{cls} \in R^{k}$ 和一个位置预测项 $ajloc∈R4a_{j}^{loc} \in R^{4}$ ， $k$ 指的是object 类别的数目。B表示object 集， $bi∈Bb_{i} \in B$ 表示一个object。公式中的 $Cij∈0,1C_{ij} \in {0,1}$ 表示object $b_{i}$ 和anchor $a_{j}$ 是否匹配。

通常， $b_{i}$ 和 $a_{j}$ 的IoU大于某个阈值，则 $C_{ij}=1$ (当有多个 $b_{i}$ 满足条件时，取最大IoU最大的，这样就保证了一个anchor只能匹配一个object)，否则 $C_{ij}=0$ 。

在这里插入图片描述

公式1

从该loss函数可以看出，只优化了分类和位置回归，忽视了对object-anchor匹配的优化。

自定义检测似然函数

**目标：**该似然函数能够与召回率、精度和NMS算法兼容。

为了理解，假设一张图像anchors数目为20000，object数目为2。

为了定义优化似然函数，对于每一个object $b_{i}$ 选择n（实验中取50最佳，后续为了便于理解，直接取50）个候选anchors，这些候选anchors是通过20000个anchors与 $b_{i}$ 计算iou，选取iou最大的前50个，所有候选anchor集记为 $A_{i}$ 。

为了优化召回率（正确预测的object 数目/真实的object 数目），对于每一个object $b_{i}$ 我们需要保证至少存在一个anchor $aj∈Aia_{j} \in A_{i}$ 使得预测的类别和位置与ground-truth相近，则定义召回似然函数如下：
$P(\theta)_{recall}=\prod_{i}\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc}) （公式2）$
$P(θ)ijclsP(\theta)_{ij}^{cls}$ : 表示分类置信度，取值范围为[0,1]，size(2,50) ，网络类别估计层经过Sigmoid函数输出，第一行表示object $b_{1}$ 对应的50个候选anchors属于该object 类的概率。

$P(θ)ijlocP(\theta)_{ij}^{loc}$ : 表示定位置信度。取值范围为[0,1]，size(2, 50), 第一行表示object $b_{1}$ 对应的50个候选anchors定位该object 的置信度。其计算是将公式1中的位置损失函数 $L(θ)ijlocL(\theta)_{ij}^{loc}$ 改写为似然概率的形式：
$P(\theta)_{ij}^{loc}=e^{-\beta L(\theta)_{ij}^{loc}}$

$L(\theta)_{ij}^{loc}=smoothL1(a_{j}^{loc},b_{i}^{loc})$

smoothL1损失函数请参看：https://blog.youkuaiyun.com/weixin_41940752/article/details/93159710

定义上述似然函数后，再回头看看 $P(θ)recall=∏imax⁡aj∈Ai(P(θ)ijclsP(θ)ijloc)P(\theta)_{recall}=\prod_{i}\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc})$ 的含义：

$max⁡aj∈Ai(P(θ)ijclsP(θ)ijloc)\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc})$ : 对一个object $b_{i}$ ，其有50个候选anchors，将每个anchor的分类置信度和定位置信度相乘，作为该anchor的置信度，选取置信度最高的anchor。
$∏imax⁡aj∈Ai(P(θ)ijclsP(θ)ijloc)\prod_{i}\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc})$ :将每个object 对应的最高置信度相乘。此处优化的object 是希望 $P(θ)recallP(\theta)_{recall}$ 越大越好。

2.为了提高检测精度（正确预测的object 数目/预测为object 的数目），检测器需要将定位较差的anchor分为背景类，精度似然概率函数定义如下：
$P(\theta)_{precision}=\prod_{j}(1-P\{a_{j} \in A_{-}\}(1-P(\theta)_{j}^{bg})) （公式3）$

$(1−P(θ)jbg)(1-P(\theta)_{j}^{bg})$ :反应分类置信度，不属于背景类的置信度。size(20000)。
$P{aj∈A−}P\{a_{j} \in A_{-}\}$ :反应定位置信度，属于背景类的置信度。

为了提高检测精度，我们需要当anchor属于背景类的定位置信度比较高时（及anchor定位较差），属于背景类的分类置信度比较高，即不属于背景类的置信度比较低。 $P(θ)precisionP(\theta)_{precision}$ 的定义能满足该需要。

接下来就要定义anchor $a_{j}$ 属于背景类的定位置信度：
$P\{a_{j} \in A_{-}\}=1-\max \limits_{i}P\{a_{j} -> b_{i}\}$
其中 $P\{a_{j} -> b_{i}\}$ 表示anchor $a_{j}$ 能够正确匹配object $b_{i}$ 的概率（不要着急问为什么，目前只是理论定义，接下来会讲如何定义该函数才能表达此意义），那么 $P{aj∈A−}P\{a_{j} \in A_{-}\}$ 就反应了 $a_{j}$ 与所有object 都不匹配的概率，即属于背景类的概率。

那么接下来就要开始研究如何定义 $P\{a_{j} -> b_{i}\}$ 才能表示anchor $a_{j}$ 能够正确匹配object $b_{i}$ 的概率，另外需要注意的一点是，该概率是从定位角度出发的。

$P\{a_{j} -> b_{i}\}$ 定义

为了能够与NMS兼容， $P\{a_{j} -> b_{i}\}$ 应该满足三个性质：

（1） $P\{a_{j} -> b_{i}\}$ 应是 $a_{j}^{loc}$ 与 $b_{i}^{loc}$ 之间IOU（即 $IoU_{ij}^{loc}$ ）的单调递增函数，即两者之间IoU越大，概率应该越大，这与我们的直观认知是一样的；

（2)当 $IoU_{ij}^{loc}$ 小于某个阈值时，此概率应该接近于0；

(3)对于每个object $b_{i}$ ，应该有且只有一个anchor $a_{j}$ 满足 $P\{a_{j}->b_{i}\}=1$ 。

则
$P\{a_{j}->b_{i}\}=Saturated linear(IoU_{ij}^{loc},t,max_{j}(IoU_{ij}^{loc}))$

$linear(x,t1,t2)=\begin{cases} 0 & x\leq t1 \\ \frac{x-t1}{t2-t1} & t1<x<t2 \\ 1 & x \geq t2 \end{cases}$

损失函数

回忆开头讲的自定义检测似然函数的目标是：该似然函数能够与召回率、精度和NMS算法兼容。

则检测似然函数为：
$P(\theta)=P(\theta)_{recall}\times P(\theta)_{precision} =\prod_{i}\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc}) \times \prod_{j}(1-P\{a_{j} \in A_{-}\}(1-P(\theta)_{j}^{bg}))$
转换为损失函数为：
$L(\theta)=-log(P(\theta))=-\sum_{i}log(\max \limits_{a_{j}\in A_{i}}(P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc}) )-\sum_{j}log(1-P\{a_{j} \in A_{-}\}(1-P(\theta)_{j}^{bg})) (公式4)$
式中max函数是用来为每个object 选择最匹配的anchor，初始训练阶段，所有anchors的置信度都比较低，而且因为网络的参数是随机初始化的，具有最高置信度的anchor不一定是最匹配的anchor，为了解决这个问题，将max函数换为Mean-max函数：
$Mean−max(X)=∑xj∈Xxj1−xj∑xj∈X11−xjMean-max(X)=\frac{\sum_{x_j\in X}\frac{x_j}{1-x_j}}{\sum_{x_j\in X}\frac{1}{1-x_j}}$
其示意图如下：

[外链图片转存失败(img-EipZBiAn-1568808708223)(/home/zy/.config/Typora/typora-user-images/1568792263319.png)]

可以看出，当初始anchors置信度比较低的时候, Mean-max函数接近取平均值，即所有候选anchor都参与训练；随着不断训练，一些候选anchors的置信度增加，Mean-max函数越接近max函数，训练充足时，就可以从候选anchors中选出一个最好的anchor来匹配object 。

除此之外，还做了两项修改：公式4的第二项采用focalloss，第一项和第二项分别乘以权重因子 $w_1,w_2$ ，最终的loss函数为：
$L(θ)=−w1∑ilog(Mean_max(Xi))+w2∑jFL_(P{aj∈A−}(1−P(θ)jbg))(公式5) L(\theta)=-w_1\sum_{i}log(Mean\_max(X_i))+w_2 \sum_{j}FL\_(P\{a_{j} \in A_{-}\}(1-P(\theta)_{j}^{bg})) (公式5)$
其中 $Xi={P(θ)ijclsP(θ)ijloc)∣aj∈Ai}X_i=\{P(\theta)_{ij}^{cls}P(\theta)_{ij}^{loc})|a_j \in A_i\}$ ， $FL_(p)=−pγlog(1−p)FL\_(p)=-p^{\gamma}log(1-p)$ ， $w1=α∣∣B∣∣w_1=\frac{\alpha}{||B||}$ ， $w2=1−αn∣∣B∣∣w_2=\frac{1-\alpha}{n||B||}$ ， $∣ ∣ B ∣ ∣$ 为object 数目， $n$ 为候选anchor数目。