视频实例分割模型SeqFormer： Sequential Transformer for Video Instance Segmentation-优快云博客

SeqFormer: Sequential Transformer for Video Instance Segmentation

SeqFormer：用于视频实例分割的顺序转换器，本文主要介绍这篇论文的核心思想，方法实现。

论文地址：
https://arxiv.org/abs/2112.08275
官方代码地址
https://github.com/wjf5203/SeqFormer

背景介绍

视频实例分割（VIS）是一项新兴的视觉任务，旨在同时执行视频中对象实例的检测、分类、分割和跟踪。与图像实例分割相比，视频实例分割更具挑战性，因为它需要准确跟踪整个视频中的对象。

传统的VIS主流方法是一种是遵循跟踪检测范式，通过跟踪分支扩展图像实例分割模型，这些方法首先逐帧预测候选检测和分割，然后通过分类或重新识别将它们关联起来，通过视频跟踪实例，但是，跟踪过程对视频中常见的遮挡和运动模糊很敏感。另一种方法就是直接将整个视频的三维特征直接展平直接送入Transformer Decoder中，希望模型同时完成Segmentation和Tracking，这样直接的解决方案虽然有效，但是不符合对视频的直觉认知，丢失了视频具有三维特征的性质。

在这篇论文中，作者认为实例对象可能在不同帧中有不同的位置，大小，形状和各种外观，所以要对实例进行独立查询，即注意力过程应该独立的对每一帧进行，这样模型就可以关注到视频中实例的运动过程。