在此文章中,阿里巴巴资深算法专家为我们介绍了视频物体分割的三个研究方向,然后结合阿里文娱摩酷实验室的探索,分享了他们在视频领域的最新应用。
视频物体分割(Video Object Segmentation,简称 VOS),顾名思义就是从视频所有图像中把感兴趣的物体区域完整的分割出来。
视频物体分割结果是进行内容二次创作的重要素材。例如目前火爆的「裸眼 3D 视频」,基于视频中主要物体与观众之间的距离,利用蒙皮遮挡的变化产生 3D 效果。其核心点是将前景物体从视频中分割出来,这部分会花费创作者 99% 以上的时间。
因此,对于优酷这样的视频类网站,视频物体分割是非常有价值的算法,能够赋能内容生产者,提升内容生产效率。特别是交互式视频物体分割算法,能利用用户少量交互,逐步提高视频物体分割正确率,提升用户观感体验。这是任何无监督视频物体分割算法所不能达到的。
目前,CV 学术界在视频物体分割方面的研究主要分为三个方向:
- 半监督视频物体分割 (Semi-supervised video object segmentation)
- 交互式视频物体分割 (Interactive video object segmentation)
- 无监督视频物体分割(Un-supervised video object segmentation)
这三个研究方向对应于 Davis Challenge 2019 on Video Object Segmentation[1] 中的三个赛道。其中,学术界更倾向于研究半监督视频物体分割,因为这是视频物体分割的最基础算法,也是比较纯粹的一个研究点。接下来,我首选介绍视频物体分割的三个研究方向,然后结合阿里文娱摩酷实验室的探索,分享在视频领域的最新应用。
一、半监督视频物体分割
半监督视频物体分割,又称为单一样本视频物体分割 (one-shot video object segmentation, 简称 OSVOS)。在半监督视频物体分割中,给定用户感兴趣物体在视频第一帧图片上的分割区域,算法来获取在后续帧上的物体分割区域。物体可以是一个,也可以是多个。在视频中,存在物体和背景运动变化、光照变化、物体旋转变化、遮挡等,因此半监督视频物体分割算法研究的重点是算法如何自适应获取变化的物体表观信息。一个示例如下图所示:
<