目录
论文题目:Real-Time High-Resolution Background Matting
论文链接:论文链接
论文代码:代码链接
一、简介
文章提出一种实时,高分辨率背景替换技术,在GPU上能够实现在4k分辨率下30fps、HD下60fps,效果图如下:
二、方法介绍
文章将抠图任务分为两部分完成:
第一步使用Base网络从输入的原图 I 和背景图 B 提取出粗糙的结果,粗糙的结果包括四部分(粗糙的alpha蒙版、 前景残差,误差预测图Ec,隐藏层特征Hc)示例和表示符号如下图所示。下标c表示下采样的倍数。
第二步Refine网络使用Hc、I、B来对粗糙的掩码和前景残差进一步改善,输出改善后的掩码和前景残差。为了提高速度,这一步改善操作并不是直接在原图和上直接操作,而是通过Ec提取对应位置的patches来改善掩码和前景残差。
三、框架解析
模型主要从两步来分析,第一步为Base网络,第二步为Refine网络:
首先将原图和背景图进行链接为6*H*W大小,然后进行一次倍率为c的下采样生成6*Hc*Wc大小的输入,送入Base网络。
Base网络:架构参照的DeepLabV3和DeepLabV3+。
Base网络首先将输入通过Backbone进行特征提取(编码器部分),这里的Backbone使用的ResNet50,按照速度和质量需求可替换为ResNet-101或者MobileNetV2。然后在Backbone后接Aspp模块(ASPP详见文章:文章链接)。
接着便是Base网络的解码器部分:将前面输出与来自Backbone提取的中间特征的通过Skip connection拼接在一起进行双线性上采样(3*3卷积+BN+RELU),最后形成如上图所示的四个输出:粗糙的alpha蒙版、 前景残差,误差预测图Ec,隐藏层特征Hc。
Refine网络:不同于Base网络在原图上进行操作,而是借助Ec在特征图上提取出k个最高预测误差的Patches上进行操作。通过Base网络在原图c倍下采样生成了误差预测图Ec,当c为4时表示生成的E4为原图进行倍率为4的下采样,即变为原图的1/16。因此Ec内每个像素对应为原图的4*4大小patch,便于后文中的替换,具体如下。
首先,将Base网络的输出:粗糙的alpha蒙版、 前景残差,隐藏层特征Hc,以及转换为原始分辨率的1/2倍的输入图像I和背景B,进行连接为特征图。然后通过Ec在该特征中选出patches,然后进行2次 3*3卷积(valid padding+BN+RELU)输出4*4的patch,然后上采样为8*8patch,将其与原图中对应的8*8patch连接后同样进行2次 3*3卷积(valid padding+BN+RELU),获得4*4的alpha蒙版和前景残差patches。
最后将粗糙的alpha蒙版和前景残差上采样为原图大小,并将其中pathes替换为Refine获得的4*4的alpha蒙版和前景残差patches。
四、损失函数
1.Base网络:
其中:
α蒙版及其Sobel梯度的L1损失:(α∗为α的groundtruth)
通过前景残差计算F:,进而计算其L1损失
通过α计算误差预测图E的groundtruth进而计算其损失
2.Refine网络
五、结果
训练使用数据集两个大规模的视频和图像抠图数据集:VideoMatte240K和PhotoMatte13K/85。
如下为在各个数据集上和其他方法的对比。
结果图:
原创文章,如有不足,请指正,转载注明:2021最佳学生论文提名:Real-Time High-Resolution Background Matting实时高分辨率背景抠图_Alocus_的博客-优快云博客