论文阅读：Grid R-CNN_cnn grid point-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/86707717

Grid R-CNN是一种两阶段目标检测方法，它通过RoI特征对物体网格进行提案位置修正，提高定位精度。采用多点监督解决关键点定位不精确问题，使用像素级sigmoid激活的heatmap预测，并通过特征融合增强信息。通过extended region mapping增加有效训练样本，提升检测性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Grid R-CNN

文章

CornerNet是one-stage的基于关键点的detector，那么可以不可以在two-stage上用上类似的方法呢？Grid R-CNN就是这样的方法。和普通的two-stage的第二步对RoI进行回归不一样，该方法直接利用RoI feature对物体的Grid（多个关键点）进行proposal的位置修正。

和CornerNet一样，本文也发现了很多关键点（比如CornerNet中的左上和右下角点）所在的位置缺少local visual evidence的问题，所以本文设计了一种multi-point的监督方式，可以减小某些点定位不精确带来的影响。比如上图(b)中3x3的grid设计，右上角的不精确的y轴坐标可以由上中点校准，其实这和corner pooling的想法还是很相似的。

和CornerNet不一样的地方在于，CornerNet是一个bottom-up的方法，直接从图片得到关键点，然后对关键点进行group来确定物体的bounding box。而本文的方法是top-down的，先由第一阶段确定好每个instance的RoI，然后致力于将关键点定位得更加准确。

从上面的结构图看出，如果设置的Grid是NxN的，那么每个RoI的feature在经过dilated卷积和反卷积之后会输出