YOLACT paper笔记

YOLACT是一种结合目标检测、分类和语义实例分割的实时模型,旨在解决two-stage方法的效率问题。它采用ResNet-101作为backbone,并通过并行的mask和目标检测分支实现one-stage实例分割。模型使用FCN预测prototypes,额外的head预测maskcoefficients。为了避免featurerepooling的损失,YOLACT在处理小目标时表现良好。相比MaskR-CNN,YOLACT在连续帧中表现出更少的抖动,因为其one-stage设计使得prototype不受目标框变化的影响。文章建议,若追求速度,可以考虑使用ResNet-50或DarkNet-53替代ResNet-101。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

YOLACT是一种集检测,分类,语义实例分割于一身的模型,
paper细节这篇文章讲得很详细,不再码字了。

如果想更清楚地了解各个处理细节,请参考yolact ncnn保姆级源码解读

主要写一下paper中作笔记标出来的地方。
目标检测有two-stage和one-stage一说,以前的R-CNN,Faster R-CNN是two-stage检测,
后来YOLO改进成了one-stage.
实例分割也是,Mask R-CNN是two-stage分割,先有box region, 然后有mask,
这种方法存在feature repooling,即先有ROI,然后把box内的feature送到mask predictor.
这两个stage是序列的,顺序一定,先来后到,前一阶段不完成后面就不能开始,因此在加速上有些困难。

FCIS做到了把两阶段并行,但是存在大量的post processing,也不算real-time.
作者就想到把实例分割也做成one-stage,达到real time的效果。

backbone是熟悉的ResNet-101,然后作者发现如果是分割大的目标,效果会比其他方法好(边界部分比较准确),
据分析是由于没有feature repooling带来的损失。
在这里插入图片描述

模型就并行的两个branch,一个mask,一个目标框+分类。
mask预测是用FCN结构,预测ptototypes
目标框则是在目标检测分支加了一个extra head,用来预测mask coefficients
在这里插入图片描述

在通过了NMS的目标框中,预测mask。

记得语义分割模型中,mask经常有断断续续的效果,比如
在这里插入图片描述

有段文字不知道是不是说的这个现象,
卷积层(conv)会利用到pixel的连续性,认为彼此连接的pixel大概率会是同一实例,
而FC层不会。

在这里插入图片描述

因此,模型有两个分支,fc层用作产生mask coeffients,
conv层用作产生protype masks.

在这里插入图片描述

为了提高较小目标的效果,会把P3层的deep feature上采样到输入图像的1/4大小。

很多时候,为了提高实效性,会把图像下采样减小尺寸,
但是这里作者不建议这么做,减小尺寸会大幅降低performance.
如果想提速,建议使用ResNet-50或者DarkNet-53.

在这里插入图片描述
在这里插入图片描述

在连续帧的效果回避Mask R-CNN, 比如视频中,mask的抖动要小。
分析是即使目标框有抖动,因为是one-stage, prototype也不会受影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝羽飞鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值