Mask2Former阅读笔记

Mask2Former:TransformerDecoder优化与多尺度特征的实例分割
Mask2Former在MaskFormer基础上改进了TransformerDecoder,交换了自注意力和交叉注意力的顺序,引入多尺度特征和随机采样计算maskloss,提升了模型性能和训练效率。

前言

MaskFormer系列论文发展的大致脉络如下图所示。

2017年Transformer的提出为图像检测、分类和分割任务提供了新思路。

2020年DETR将Transformer引入到目标检测领域,提出了Query Based的端到端目标检测算法,去除了NMS / anchor等人工先验,把目标检测看作一个集合预测问题。

2021年MaskFormer借鉴DETR的思路,将语义分割和实例分割的问题统一定义为mask分类问题,去除NMS / anchor等人工先验,把实例分割看作一个集合预测问题。

2021年底,mask2former的提出对maskformer进一步改进。

mask2former在maskformer的基础上主要做了3个方面的改进。

  • 在Transformer Decoder中交换自注意力(self-attention)和交叉注意力(cross-attention)的顺序(称为“masked attention"),加速模型的收敛并提高性能
  • 使用多尺度高分辨率特征,把pixel decoder的不同层作特征金字塔分别输入到transformer decoder的不同层中,帮助模型分割小目标 / 区域
  • 在K个采样随机点而非全图上计算mask loss,在不影响性能的前提下,将训练内存节省了3倍,从每张图像18GB到6GB。

1. 模型整体结构

模型整体结构与MaskFormer大体一致,由三个部分组成:

  1. backbone特征提取器
  2. pixel decoder
  3. Transformer d
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值