2021-Deep Video Matting via Spatio-Temporal Alignment and Aggregation

本文提出一种视频抠像框架,通过跨注意力机制传播trimap并利用时空特征聚合模块提高前后景分割效果。

Deep Video Matting via Spatio-Temporal Alignment and Aggregation

目录

Deep Video Matting via Spatio-Temporal Alignment and Aggregation

1. Title

2. Summary

3. Problem Statement

(1)Matting问题定义

(2)Video Matting难点

4. Method(s)

(1)Datasets

Composited Dataset

Real-World High-Resolution Videos

(2)Trimap Propagation

(3)Encoder-Decoder Network

(4)Spatial-Temporal Feature Aggregation Module(ST-FAM)

Temporal Feature Alignment module (TFA)

Temporal Feature Fusion module (TFF)

(5)Loss Functions

5. Evaluation

(1)数据集实验指标

(2)消融实验

6. Conclusion


1. Title

Deep Video Matting via Spatio-Temporal Alignment and Aggregation

2. Summary

本文提出了一个用于解决Video Matting问题的Framework。

Trimap Propagation Network可以从参考帧的Trimap标注传播至其他目标帧中,初步获取粗糙的Trimap,从而大大降低了对密集标注Trimap的要求,传播的机制主要是基于Cross-Attention而完成。

网络整体架构是UNet架构,但输入是来自于多个帧的特征及其有Trimap Propagation Network生成的粗糙的Trimap,同时在Skip-Connection部分采用了Spatial-Temporal Feature Aggregation Module(ST-FAM)对其进行增强。

Spatial-Temporal Feature Aggregation Module(ST-FAM)核心思想是利用目标帧和相邻帧的特征产生一个offset,并送入Deformable Conv中进行对齐,从而获取时域信息。

3. Problem Statement

本文要解决的问题领域是Video Matting。

(1)Matting问题定义

图像分割就是将图片中的像素分成多个类别,如果是前背景分割,那么就是分成两个类别,一个类别代表前景,一个类别代表背景,这类问题我们也称之为硬分割(Hard Segmentation)。

Matting也是一类前背景分割问题,但是matting不是硬分割,而是软分割(Soft Segmentation),像玻璃、头发这类前景,对应像素点的颜色不只是由前景本身的颜色决定,而是前背景颜色融合的结果,matting问题的目标就是,找出前背景颜色F和,以及它们之间的融合程度α。(参考链接

 

(2)Video Matting难点

尽管深度学习在Natural Image Matting任务中取得了巨大的进展,但是目前在Video Matting领域缺乏一些代表性的工作,原因在于:

  • Video Matting需要保持Spatial和Temporal的一致性,简单在帧间独立使用Image Matting会在移动的细节部分带来跳动,光流估计可以一定程度上缓解跳动问题,但是对于复杂的matting场景,目前的光流估计算法无法对半透明区域获得一个可信的估计结果。

  • 由于Video Matting需要大量密集标注的Tripmap,因此目前缺乏大规模的Video Matting数据集。

4. Method(s)

为了解决上述问题,本文提出了一个创新的并且同时高效的Spatial-Temporal Feature Aggregation Module(ST-FAM),考虑到时耗以及准确性,该模块并没有使用光流估计模块,而是在Decoder部分通过对齐和聚合来自不同Spatial Scale和Temporal Frames来高效获取时序信息。

本文还提出了一个轻量级的Interactive Trimap Propagation Network以避免对逐帧标注的Trimap的需求。

最后本文还开源了一个大型Video Matting数据集,该数据集包含groundtruth alpha mattes用于定量评估,以及包含trimap的高分辨率真实世界video,用于定性评估。

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值