Siam Mask

最新推荐文章于 2022-05-24 20:06:21 发布

原创

最新推荐文章于 2022-05-24 20:06:21 发布 · 838 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

SiamMask是一种实时在线目标跟踪与分割方法，基于SiamRPN框架，通过引入额外的mask预测分支，实现了从bounding box到mask的快速预测。此方法在保持高速的同时，提高了目标分割精度。

Paper : Fast Online Object Tracking and Segmentation: A Unifying Approach
Code : official

摘要

作者提出了SiamMask 的结构，可以根据上一帧的bounding box的信息对下一帧的分割掩膜进行预测，然后再在掩膜的基础上生成该帧对应的bounding box。与其他Segmentation 的方法相比，该结构采用bbox进行mask预测，因此速度会快很多。SiamMask的实现方法比较简单，在SiamRPN的基础上在新增一个分支进行mask的生成，创新点比较小。

网络结构

在这里插入图片描述
网络的整体结构如图所示，作者在SiamRPN的两个分支之外，添加了一个新的分支用来进行Mask的预测。为了使得到的score map/response map容纳更大的信息，Siam Mask 中在互相关的一步采用的是depth-wise cross-correlation 层，可以输出一个多通道的response map。

Depth-wise Cross-correlation :

通过类似深度可分离卷积的方法，逐通道计算correlation结果，这样的好处是可以得到一个通道数非1的输出。

损失函数：在训练期间，每个RoW(Region of a candidate window)都用ground truth 标签 $y_n\in \{\pm 1\}$ 标记，并且还与大小为 $w\times h$ 的ground truth mask $c_n$ 相关联。令 $c^{ij}_{n}\in \{\pm1\}$ 表示与第 $n$ 个候选RoW中的对象掩模的像素 $(i, j)$ 相对应的标签。掩码预测任务的损失函数 $\mathcal L_\text{mask}$ 是所有RoW上的二进制logistic回归损失
$\mathcal L_\text{mask}(\theta,\phi) = \sum_n (\frac{1+y_n}{2wh}\sum_{i,j}\log(1+e^{-c_n^{ij}m_n^{ij}}))$