论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

论文链接:https://arxiv.org/abs/2003.08429

STEmSeg是ECCV20上的一篇文章,做的是Video Instance Segmentation(VIS),提出了一种可以end-to-end的方法,大大简化了VIS的pipeline,同时在很多数据集上达到了SOTA。

过去很多经典的方法都遵循top-down模式,即仿照MOT里的tracking-by-detection的范式。这类方法通常会利用多个模型,先做单张image的检测,再做帧之间的association,对于occlusion用appearance model处理。这种pipeline虽然精度较高,但包含了太多的network,因此计算复杂,且无法end-to-end。

所以作者另辟蹊径,受Perceptual Grouping Theory启发,提出了一种bottom-up的方法。该方法的核心就是采用spatio-temporal embeddings,通过给每一帧每个pixel一个高维度的embedding,将同一个instance的pixel投影到embedding space中相近的位置,使他们属于同一个cluster。

Problem Formulation

假设视频片段共 TTT 帧,分辨率是 H∗WH*WHW,由于视频是RGB三通道的,因此clip可以表示为 χ∈RN∗3\chi \in R^{N*3}χRN3,其中N=T∗H∗WN=T*H*WN=THW,假设在整个clip中有KKK个instance。设计的网络需要利用embedding function得到每个instance的时空信息,进而对每个pixel的embedding进行聚类。同时,该方法和传统的有一点不一样,即作者提出的方法还需要估计每一个cluster的中心,以及其方差,从而做到更高效的inference。综上所述,网络可以被看作是一个映射,从原视频χ\chiχ映射为三部分输出:(1)ε∈RN∗E\varepsilon \in R^{N*E}εRNE,对于每一个pixel得到一个维度为E的embdding;(2)V∈R+N∗EV \in R^{N*E}_{+}VR+N

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值