YOLACT paper笔记

原创已于 2022-11-18 16:58:57 修改 · 597 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #目标检测

于 2022-10-18 17:08:11 首次发布

DeepLearning 专栏收录该内容

69 篇文章

订阅专栏

YOLACT是一种结合目标检测、分类和语义实例分割的实时模型，旨在解决two-stage方法的效率问题。它采用ResNet-101作为backbone，并通过并行的mask和目标检测分支实现one-stage实例分割。模型使用FCN预测prototypes，额外的head预测maskcoefficients。为了避免featurerepooling的损失，YOLACT在处理小目标时表现良好。相比MaskR-CNN，YOLACT在连续帧中表现出更少的抖动，因为其one-stage设计使得prototype不受目标框变化的影响。文章建议，若追求速度，可以考虑使用ResNet-50或DarkNet-53替代ResNet-101。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLACT是一种集检测，分类，语义实例分割于一身的模型，
paper细节这篇文章讲得很详细，不再码字了。

如果想更清楚地了解各个处理细节，请参考yolact ncnn保姆级源码解读

主要写一下paper中作笔记标出来的地方。
目标检测有two-stage和one-stage一说，以前的R-CNN，Faster R-CNN是two-stage检测，
后来YOLO改进成了one-stage.
实例分割也是，Mask R-CNN是two-stage分割，先有box region, 然后有mask,
这种方法存在feature repooling，即先有ROI，然后把box内的feature送到mask predictor.
这两个stage是序列的，顺序一定，先来后到，前一阶段不完成后面就不能开始，因此在加速上有些困难。

FCIS做到了把两阶段并行，但是存在大量的post processing，也不算real-time.
作者就想到把实例分割也做成one-stage，达到real time的效果。

backbone是熟悉的ResNet-101，然后作者发现如果是分割大的目标，效果会比其他方法好（边界部分比较准确），
据分析是由于没有feature repooling带来的损失。
在这里插入图片描述