作者 | 平山海 编辑 | CV51
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【分割】技术交流群
后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!
简述:基于Transformer构建了分割自动标注器,用于产生分割标注作为实例分割算法的监督信息,基于生成的标注训练实例分割网络,分割效果达到了全监督的97.4%。

论文:Vision Transformers Are Good Mask Auto-Labelers
开源代码:https://github.com/NVlabs/mask-auto-labeler
单位:英伟达、Meta AI、复旦大学等
手工标注实例分割标签,价格高、耗时长,且不容易控制标注质量。因此可以用box监督分割算法的训练。作者基于Transformer构建了分割自动标注器(Mask Auto-Labeler,简称MAL),用于在box监督下产生分割标注,作为实例分割算法的监督信息。
自动生成的实例分割标签示例如下:

作者使用了2阶段框架:
阶段1:分割标签自动标注 该阶段使用MAL产生高质量的分割标注。MAL的输入为Box区域,而非整张图,以提高小目标的分辨率。
阶段2:实例分割算法训练 利用阶段1生成的分割标注作为监督信息,训练实例分割算法。这里能使用各种实例分割算法进行训练。
如下图所示:

1.MAL输入样本的生成
将box进行扩张,得到MAL的输入样本,如下图所示。其中,原始box的部分为正样本,扩张的部分全部是背景信息,为负样本。

在box扩张时,引入了一定的随机性:

2.MAL架构
MAL的网络结构包含2部分,其一为task网络,其二为teacher网络,两者结构相同。两者均包含Image Encoder(记作E)和Mask Decoder(记作D)。如下图所示:

Image Encoder
使用标准的ViT结构,去掉分类head。
Mask Decoder
借鉴YOLACT,使用了注意力机制网络,包含instance-aware head 和pixel-wise head :,其中表示内积。

teacher网络不直接参与训练,而是借鉴MOCO的思路,利用task网络的权重使用EMA(exponential moving averages)的方法更新teacher网络的参数,以防止loss为Nan,保证训练的稳定性。
3.损失函数
使用了Multiple Instance Learning Loss和Conditional Random Field Loss。
Multiple Instance Learning Loss:目的是保证box紧贴目标。

Conditional Random Field Loss:通过能量最小化精炼mask的预测。


4.实验结果



【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称