阿里达摩院：1 秒替换直播背景，像素级视频分割如何实现？

原创

于 2020-06-30 16:39:38 发布 · 2.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #达摩院 #算法 #数据可视化 #5G #测试技术 #数据库 #计算机视觉

阿里巴巴在CVPR2020的DAVIS视频目标分割比赛中夺冠，介绍其创新的空间约束方法和语义分割微调模块，实现像素级目标分割，提升视频AI技术门槛。

简介：计算机视觉领域的 AI 顶会 CVPR 2020 刚刚落下帷幕，与往年更专注图片识别不同，学术界和工业界的研究方向逐渐转向了更难的视频分割和三维视觉等领域。本次，阿里巴巴拿下了四项比赛的世界冠军，其中就包括 CVPR 2020 的 DAVIS 视频目标分割比赛，本文将详细解读这项冠军技术背后的原理。

与图像识别不同，AI 分析理解视频的技术门槛较高。长期以来，业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS（ Densely Annotated Video Segmentation）为例，该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息，过去几年，全球顶级科技在该比赛中的成绩从未突破 80 分，而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。

DAVIS 的数据集经过精心挑选和标注，视频分割中比较难的点都有体现，比如：快速运动、遮挡、消失与重现、形变等。DAVIS 的数据分为 train（60 个视频序列）， val（30 个视频序列），test-dev（30 个视频序列），test-challenge（30 个视频序列）。其中 train 和 val 是可以下载的，且提供了每一帧的标注信息。对于半监督任务， test-dev 和 test-challenge，每一帧的 RGB 图片可以下载，且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask，来对后续帧进行分割。分割本身是 instance 级别的。