CornerNet论文笔记

最新推荐文章于 2022-04-19 10:43:39 发布

原创最新推荐文章于 2022-04-19 10:43:39 发布 · 309 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch

粗读概念

1. 论文提出了什么?

论文提出了一种不需要 $boxesanchor\ boxes$ 的目标检测的方法
提出了一种新的 $c o r n e r - p o o l i n g$ 操作
属于 $a n c h o r - f r e e$ 的方法

2. 论文为什么提出这种方法?解决了什么问题

此前的 $detecorone-stage\ detecor$ 需要在图像上生成许多 $a n c h o r b o x e s$ , 但是只有少量的 $b o x$ 能够在
覆盖到有目标的地, 过多的 $boxnegative\ box$ 导致样本不平衡,从而训练缓慢
需要 $a n c h o r b o x e s$ 的方法通常需要设置许多超参数, 例如 $b o x$ 数量, 长宽比, 大小等, 这些通常需要一些经验来支持更好的结果

3. 方法描述

在这里插入图片描述

通过卷积网络生成一组 $cornertop-left\ corner$ 和一组 $cornerbottom-right\ corner$ 以及它们对应的 $vectorembedding\ vector$ , 这个 $v e c t o r$ 的作用是匹配属于一个 $o b j e c t$ 的左上右下的角点

4. corner pooling

作者提出 $poolingcorner\ pooling$ 是因为实际中, $boxobject\ box$ 的角点通常是在 $o b j e c t$ 的外面的, 所以没有本地的依据来进行调整, 如下图所示, 作者提出一种新的 $poolingcornet\ pooling$ 来解决这个问题
具体是对角点的水平和垂直两个方向,分别在 $mapfeature\ map$ 上取各个 $c h a n n e l$ 上的最大值, 然后再加起来
但是文中提到的两个 $mapfeature\ map$ 是指的什么呢??
以 $cornertop-left\ corner$ 为例, 是 $networkhourglass\ network$ 生成 $mapfeature\ map$ 分别做水平和垂直 $p o o l i n g$ 生成 $t_{ij}$ 和 $l_{ij}$ 的, 本质上是一个 $f e a t u r e m a p$

精读部分

3 CornerNet

3.1 overview

$C o r n e r N e t$ 通过 $EstimationHuman\ Pose\ Estimation$ 领域中 $NetworkHourglass\ Network$ 作为 $b a c k b o n e$ 提取初级特征, 然后将初级特征输入到 $CornersTop-left\ Corners$ 和 $CornersBottom-right\ Corners$ 两个预测模块中, 经过 $poolingcorner\ pooling$ 及后续的 $n n$ 得到 $OffsetsHeatmaps,\ Embeddings,\ Offsets$ 三个输出, 其中 $H e a t m a p s$ 为 $C \times H \times W$ 的 $maskbinary\ mask$ , 有C个 $c h a n n e l s$ 分别对应C个 $c l a s s e s$ , $H \times W$ 分别对应图上的点是否有 $C o r n e r s$ , $E m b e d d i n g s$ 用来对预测的两种 $c o r n e r s$ 的 $g r o u p i n g$ ,也就是配对, $O f f s e t s$ 用来微调预测角点的值, 改善网络对小目标的预测结果

3.2 Detecting Corners

这个部分主要讲了两个内容:

$N e g a t i v e P o s i t i o n$ 的定义: 以 $positiongt\ position$ 为中心, $r a d i u s$ 为半径的圆外的点, 其中radius的大小有 $g t b b o x$ 的大小确定,原则如下图所示,大意是 $r a d i u s$ 中点组成的 $b o x$ 与 $g t b o x$ 的 $I O U$ 最小为 $t$ , 文中的括号里 $0 : 3$ 没看懂,感觉是笔误,应该是 $0.3$ 吧(这个不太确定). 对于 $n e g a t i v e p o s i t i o n$ 的 $p e n a l t y$ , 作者使用 $Gaussians=e^{-(x^2+y^2)/2\times\sigma^2}$ 生成一个 $heatmapgt\ heatmap$ 为 $y_{cij}$ , 以 $positiongt\ position$ 为中心,方差为 $r a d i u s / 3$ , 从公式可以看到对于生成的 $h e a t m a p$ 某个点若对应 $y_{cij}=1$ (即对应 $positiongt\ position$ ),按照上式求 $l o s s$ , 对于其他 $positionnegative\ position$ ,越接近 $positiongt\ position$ , 那么 $1-y_{cij})$ 则越小, 也就是惩罚越小,来计算 $l o s s$ .
$O f f s e t s$ : 许多网络下采样后将预测的左边remap回原始图像时通常会损失一些精确度, 所以作者在 $C o r n e r N e t$ 中设置 $o f f s e t s$ 来微调预测的坐标使结果更准确.其中 $(2)$ 式为计算偏差公式, 那么 $οk\omicron_{k}$ 和 $ο^k\hat\omicron_{k}$ 分别对应 $offsetgt\ offset$ 与 $offsetpredict\ offset$ , 最后通过 $S m o o t h L 1 L o s s$ 来学习. $S m o o t h L 1 L o s s$ 是 $RCNNFast\ RCNN$ 中提出的,相比 $L 1$ 收敛更快,相比 $L 2$ 对于离群点、异常值更加鲁棒,训练不容易跑飞

在这里插入图片描述

3.3 Grouping Corners

这个部分讲如何将预测的 $c o r n e r s$ 进行配对,文中写的方法是based on the distance between the embeddings of corners ,但是具体距离的计算公式什么,文中没有给出,也许可以在作者提到的 $N e w e l l$ 的论文中有提到, 此外作者引用 $N e w e l l$ 论文中 $p u l l - p u s h$ 的方法训练使成对的 $c o r n e r$ 接近,不成对的进行远离.

在这里插入图片描述

3.4 Corner Pooling

大概原理如下图所示, 文中说的 $v e c t o r$ 应该指的是 $1×channel1\times channel$ , 也就是从 $s p a t i a l$ 的每个点看向 $c h a n n e l$ 方向, 下图是一个 $c h a n n e l$ 的 $poolingtop-left\ corner\ pooling$ 情形,分别从右往左与从下往上 $poolingmax\ pooling$
在这里插入图片描述

4 Experiments

实验中作者验证了论文几个 $componentskey\ components$ 的结果,总结如下:

不同 $p o o l i n g$ 方式的对比显示 $c o r n e r p o o l i n g$ 在 $A P$ 上提高2%
$penaltynegative\ penalty$ 中 $r a d i u s$ 的三种方式对比, 不要 $r a d i u s$ 效果最差, $radiusfixed\ radius$ 提高接近3%, $radiusobject-dependent\ radius$ 提高5.5%(这个是文中使用的方法)
在 $b a c k b o n e n e t w o r k$ 的对比中 $H o u r g l a s s + c o r n e r s$ 比 $F P N + c o r n e r s$ 提到6%多, 性能差别还是挺大的.