2021最佳学生论文提名：Real-Time High-Resolution Background Matting实时高分辨率背景抠图

本文链接：https://blog.youkuaiyun.com/Crystal_remember/article/details/118283516

本文提出了一种实时高分辨率背景替换技术，可在GPU上实现4K分辨率30fps、HD下60fps的处理速度。该技术通过Base网络提取粗略结果，再利用Refine网络进一步优化，有效提高了抠图精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目：Real-Time High-Resolution Background Matting

论文链接：论文链接

论文代码：代码链接

Colab：图片抠图、视频抠图

一、简介

文章提出一种实时，高分辨率背景替换技术，在GPU上能够实现在4k分辨率下30fps、HD下60fps，效果图如下：

二、方法介绍

文章将抠图任务分为两部分完成：

第一步使用Base网络从输入的原图 I 和背景图 B 提取出粗糙的结果，粗糙的结果包括四部分（粗糙的alpha蒙版、前景残差，误差预测图Ec，隐藏层特征Hc）示例和表示符号如下图所示。下标c表示下采样的倍数。

第二步Refine网络使用Hc、I、B来对粗糙的掩码和前景残差进一步改善，输出改善后的掩码和前景残差。为了提高速度，这一步改善操作并不是直接在原图和上直接操作，而是通过Ec提取对应位置的patches来改善掩码和前景残差。

三、框架解析

模型主要从两步来分析，第一步为Base网络，第二步为Refine网络：

首先将原图和背景图进行链接为6*H*W大小，然后进行一次倍率为c的下采样生成6*Hc*Wc大小的输入,送入Base网络。

Base网络：架构参照的DeepLabV3和DeepLabV3+。

Base网络首先将输入通过Backbone进行特征提取（编码器部分），这里的Backbone使用的ResNet50，按照速度和质量需求可替换为ResNet-101或者MobileNetV2。然后在Backbone后接Aspp模块（ASPP详见文章：文章链接）。

接着便是Base网络的解码器部分：将前面输出与来自Backbone提取的中间特征的通过Skip connection拼接在一起进行双线性上采样（3*3卷积+BN+RELU），最后形成如上图所示的四个输出：粗糙的alpha蒙版、前景残差，误差预测图Ec，隐藏层特征Hc。

Refine网络：不同于Base网络在原图上进行操作，而是借助Ec在特征图上提取出k个最高预测误差的Patches上进行操作。通过Base网络在原图c倍下采样生成了误差预测图Ec，当c为4时表示生成的E4为原图进行倍率为4的下采样，即变为原图的1/16。因此Ec内每个像素对应为原图的4*4大小patch，便于后文中的替换，具体如下。

首先，将Base网络的输出：粗糙的alpha蒙版、前景残差，隐藏层特征Hc，以及转换为原始分辨率的1/2倍的输入图像I和背景B，进行连接为特征图。然后通过Ec在该特征中选出patches，然后进行2次 3*3卷积（valid padding+BN+RELU）输出4*4的patch，然后上采样为8*8patch，将其与原图中对应的8*8patch连接后同样进行2次 3*3卷积（valid padding+BN+RELU），获得4*4的alpha蒙版和前景残差patches。

最后将粗糙的alpha蒙版和前景残差上采样为原图大小，并将其中pathes替换为Refine获得的4*4的alpha蒙版和前景残差patches。