论文链接:https://arxiv.org/abs/2003.08429
STEmSeg是ECCV20上的一篇文章,做的是Video Instance Segmentation(VIS),提出了一种可以end-to-end的方法,大大简化了VIS的pipeline,同时在很多数据集上达到了SOTA。
过去很多经典的方法都遵循top-down模式,即仿照MOT里的tracking-by-detection的范式。这类方法通常会利用多个模型,先做单张image的检测,再做帧之间的association,对于occlusion用appearance model处理。这种pipeline虽然精度较高,但包含了太多的network,因此计算复杂,且无法end-to-end。
所以作者另辟蹊径,受Perceptual Grouping Theory启发,提出了一种bottom-up的方法。该方法的核心就是采用spatio-temporal embeddings,通过给每一帧每个pixel一个高维度的embedding,将同一个instance的pixel投影到embedding space中相近的位置,使他们属于同一个cluster。
Problem Formulation
假设视频片段共 TTT 帧,分辨率是 H∗WH*WH∗W,由于视频是RGB三通道的,因此clip可以表示为 χ∈RN∗3\chi \in R^{N*3}χ∈RN∗3,其中N=T∗H∗WN=T*H*WN=T∗H∗W,假设在整个clip中有KKK个instance。设计的网络需要利用embedding function得到每个instance的时空信息,进而对每个pixel的embedding进行聚类。同时,该方法和传统的有一点不一样,即作者提出的方法还需要估计每一个cluster的中心,以及其方差,从而做到更高效的inference。综上所述,网络可以被看作是一个映射,从原视频χ\chiχ映射为三部分输出:(1)ε∈RN∗E\varepsilon \in R^{N*E}ε∈RN∗E,对于每一个pixel得到一个维度为E的embdding;(2)V∈R+N∗EV \in R^{N*E}_{+}V∈R+N∗