maskrcnn-benchmark 代码详解之　box_coder.py

最新推荐文章于 2025-03-21 10:41:54 发布

原创

最新推荐文章于 2025-03-21 10:41:54 发布 · 2.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#maskrcnn benchmark #box_coder.py #b-box 回归 #代码详解 #目标检测

本文详细解析了maskrcnn-benchmark库中的box_coder.py，重点讨论了b-box回归在RCNN中的作用，如何通过映射函数将候选框转换为接近基准框，并介绍了在卷积神经网络中如何实现这一过程。

前言

box_coder.py主要用于候选边框(proposal)的编码和解码，即求解RCNN论文中回归目标中的 $t_*$ 以及预测边框。其主要针对的是RCNN和faster RCNN中的Bounding-box regression部分的操作。

１b-box 回归（RCNN)

假设现有获得的候选框（proposal）为 $Ｐ^i = (P_x^i)$ $\text{P}^i = (\text{P}_x^i, \text{P}_y^i, \text{P}_w^i, \text{P}_h^i)$ , 而基准框（ground-truth）为 $\text{G}^i = (\text{G}_x^i, \text{G}_y^i, \text{G}_w^i, \text{G}_h^i)$ , 我们需要找一种映射方式使得我们选取出来的候选框 $\text{P}^i$ 能够变换成或者映射到 $\text{G}^i$ . 针对每一个边框涉及到的x, y, w, h即边框中心坐标的x，y，以及边框的宽和高，我们分别设定有 $d_x(P)$ , $d_y(P)$ , $d_w(P)$ , $d_h(P)$ 这四种映射方式，分别可以帮助将 $\text{P}^i$ 的x, y, w, h变换成 $\text{G}^i$ 或者接近 $\text{G}^i$ 的x, y, w, h。