Deep Video Matting via Spatio-Temporal Alignment and Aggregation
目录
Deep Video Matting via Spatio-Temporal Alignment and Aggregation
Real-World High-Resolution Videos
(4)Spatial-Temporal Feature Aggregation Module(ST-FAM)
Temporal Feature Alignment module (TFA)
Temporal Feature Fusion module (TFF)
1. Title
Deep Video Matting via Spatio-Temporal Alignment and Aggregation
2. Summary
本文提出了一个用于解决Video Matting问题的Framework。
Trimap Propagation Network可以从参考帧的Trimap标注传播至其他目标帧中,初步获取粗糙的Trimap,从而大大降低了对密集标注Trimap的要求,传播的机制主要是基于Cross-Attention而完成。
网络整体架构是UNet架构,但输入是来自于多个帧的特征及其有Trimap Propagation Network生成的粗糙的Trimap,同时在Skip-Connection部分采用了Spatial-Temporal Feature Aggregation Module(ST-FAM)对其进行增强。
Spatial-Temporal Feature Aggregation Module(ST-FAM)核心思想是利用目标帧和相邻帧的特征产生一个offset,并送入Deformable Conv中进行对齐,从而获取时域信息。
3. Problem Statement
本文要解决的问题领域是Video Matting。
(1)Matting问题定义
图像分割就是将图片中的像素分成多个类别,如果是前背景分割,那么就是分成两个类别,一个类别代表前景,一个类别代表背景,这类问题我们也称之为硬分割(Hard Segmentation)。
Matting也是一类前背景分割问题,但是matting不是硬分割,而是软分割(Soft Segmentation),像玻璃、头发这类前景,对应像素点的颜色不只是由前景本身的颜色决定,而是前背景颜色融合的结果,matting问题的目标就是,找出前背景颜色F和,以及它们之间的融合程度α。(参考链接)
![]()
(2)Video Matting难点
尽管深度学习在Natural Image Matting任务中取得了巨大的进展,但是目前在Video Matting领域缺乏一些代表性的工作,原因在于:
-
Video Matting需要保持Spatial和Temporal的一致性,简单在帧间独立使用Image Matting会在移动的细节部分带来跳动,光流估计可以一定程度上缓解跳动问题,但是对于复杂的matting场景,目前的光流估计算法无法对半透明区域获得一个可信的估计结果。
-
由于Video Matting需要大量密集标注的Tripmap,因此目前缺乏大规模的Video Matting数据集。
4. Method(s)
为了解决上述问题,本文提出了一个创新的并且同时高效的Spatial-Temporal Feature Aggregation Module(ST-FAM),考虑到时耗以及准确性,该模块并没有使用光流估计模块,而是在Decoder部分通过对齐和聚合来自不同Spatial Scale和Temporal Frames来高效获取时序信息。
本文还提出了一个轻量级的Interactive Trimap Propagation Network以避免对逐帧标注的Trimap的需求。
最后本文还开源了一个大型Video Matting数据集,该数据集包含groundtruth alpha mattes用于定量评估,以及包含trimap的高分辨率真实世界video,用于定性评估。

本文提出一种视频抠像框架,通过跨注意力机制传播trimap并利用时空特征聚合模块提高前后景分割效果。
最低0.47元/天 解锁文章
2831





