简介
传统抠图算法主要是以色彩为特征分离前景与背景,并在小数据集上完成,而这就造成了传统算法的局限性目前用来求解抠图方程式(matting equation)的方法:
其中 Ii 是像素块 i 的 RGB 色彩,已知前景色彩 Fi,背景色彩 Bi,未知蒙版估计(matte estimation)αi。在这个方程式中,抠图问题形式化为两种颜色的线性组合,因此大多数现存的算法很大一部分都是将其近似求解色彩的问题。
另一个局限性就因为小数据集而产生。一般用于抠图的数据真值(ground truth)是很复杂的,而 alphamatting.com 数据集通过提供标记数据集对抠图研究做出了很重要的贡献。不过因为该数据集仅仅只由 27 张训练图像和 8 张测试图像组成,那么这样大小的数据集会带来自然偏差(nature biased),训练出来的算法也会很难进行泛化。
本篇论文提出了一种基于深度学习的新算法,该算法可以解决这两个问题。我们的深度模型分为两个阶段。第一阶段是深度卷积编码-解码网络(deep convolutional encoder-decoder network),该神经网络将图像和相对应的三分图(trimap)作为输入,并预测图像的α蒙版(alpha matte)。第二阶段是一个小型卷积神经网络,该神经网络对第一个网络预测的α蒙版进行精炼从而拥有更准确的α值和锐化边缘。同时文章提供了49300 张训练图像和 1000 张测试图像组成的抠图数据集,将单一背景下的目标进行提取,合成到复杂的新背景下。
抠图问题的核心是精确地将图像或视频中的前景估计出来,对图像编辑,影片剪辑等都有很深的意义。输入图像和 trimap 的示意如下图展示,右边两列为closed-form方法和文章结果的对比,其中第一排车为Alpha Matting 比赛中图片,下排来源为文章合成的测试数据集。
New matting dataset
alphamatting.com 的数据集需要ground truth人工完成,于是只有27张训练影像和8张测试图,为了更好地训练抠图网络,文章通过合成目标到新的背景中方法产生。首先找到背景简单单一的图像,用PS软件小心地获取精准目标蒙板和前景颜色,再随机选取MS COCO数据集或VOC数据集产生N个背景。
训练数据集有493个独特的前景目标,49300张影像(N=100),检测数据集有50个独特目标,1000张图片(N=20)。trimap在ground truth的蒙板上进行随机扩大产生。文章提出的数据集的主要优点有:目标种类多,并且如头发等细节丰富,背景比较复杂等。
下