视频实例分割模型SeqFormer: Sequential Transformer for Video Instance Segmentation

SeqFormer: Sequential Transformer for Video Instance Segmentation

SeqFormer:用于视频实例分割的顺序转换器,本文主要介绍这篇论文的核心思想,方法实现。

论文地址:
https://arxiv.org/abs/2112.08275
官方代码地址
https://github.com/wjf5203/SeqFormer

背景介绍

视频实例分割(VIS)是一项新兴的视觉任务,旨在同时执行视频中对象实例的检测、分类、分割和跟踪。与图像实例分割相比,视频实例分割更具挑战性,因为它需要准确跟踪整个视频中的对象。

传统的VIS主流方法是一种是遵循跟踪检测范式,通过跟踪分支扩展图像实例分割模型,这些方法首先逐帧预测候选检测和分割,然后通过分类或重新识别将它们关联起来,通过视频跟踪实例,但是,跟踪过程对视频中常见的遮挡和运动模糊很敏感。另一种方法就是直接将整个视频的三维特征直接展平直接送入Transformer Decoder中,希望模型同时完成Segmentation和Tracking,这样直接的解决方案虽然有效,但是不符合对视频的直觉认知,丢失了视频具有三维特征的性质。

在这篇论文中,作者认为实例对象可能在不同帧中有不同的位置,大小,形状和各种外观,所以要对实例进行独立查询,即注意力过程应该独立的对每一帧进行,这样模型就可以关注到视频中实例的运动过程。

方法介绍

1.实例查询分解

SeqFormer把共享的实例Query分离到每一帧上,在每一帧上独立定位物体并提取对应特征,关注视频中实例移动的位置,以此来保证模型在每一帧上提取的信息是准确的。

2.框查询

框查询是 SeqFormer 中用于关注不同位置的机制。在每个时间步中,模型会生成一个框查询,该查询会关注图像中的特定区域,用于捕获实例的位置和特征。通过使用框查询,SeqFormer能够在序列中跨帧追踪实例,捕获实例的运动和变化。注意力机制的帧级框查询,以保证注意力集中在每个帧上的相同实例上。

模型框架

在这里插入图片描述

上图就是SeqFormer模型的框架,主要由四个部分组成:

Backbone: 给定一个视频Xv∈RT×3×H×WX_v∈R^{T\times3 \times H\times W}XvRT×3×H×W(具有 3 个颜色通道和分辨率为 H × W 的 T 帧),这个部分是由CNN主干网络构成(ResNet),用来独立提取每一个帧的特征图。

T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值