2021-Flow-based Video Segmentation for Human Head and Shoulders

最新推荐文章于 2024-10-30 18:02:06 发布

原创最新推荐文章于 2024-10-30 18:02:06 发布 · 465 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

VOS 专栏收录该内容

3 篇文章

订阅专栏

提出一种基于光流的视频分割方法FUNet，通过阈值化光流获得运动信息，结合原始图像进行人体头部及肩部的实时分割。适用于视频会议等场景。

1. Title

论文链接：Flow-based Video Segmentation for Human Head and Shoulders
代码以及数据集链接：https://github.com/kuangzijian/Flow-Based-Video-Segmentation

2. Summary

本文提出的FUNet整体较为简单，主要就是基于PWCNet完成了光流预测，并通过设定阈值的方式，将光流转化为了Motion Feature Mask，该Mask作为辅助信息与原图一起送入一个简单的UNet网络中完成最终的视频分割任务。作者尚未在其他数据集中进行实验和测试，模型泛化能力尚不清楚。
除此之外，本文还提出了一个ConferenceVideoSegmentationDataset用于后续研究。

3. Problem Statement

人体头部以及肩膀部位的视频分割对于视频会议、虚拟现实应用来说是十分重要的，其难点在于如何在存在运动模糊的情况下，实时地对高质量视频进行前背景的分离。

4. Method(s)

为了解决上述问题，本文提出了一个Flow-Based Encoder-Decoder Network（FUNet）。
该网络的整体架构如下图所示：

FUNet首先会对一个视频序列每两帧进行一次光流估计，并通过阈值化的方式将其转换为一个二值图，该二值图即可表征两帧之间的运动信息，随后该运动特征将会与原图进行拼接，送入到一个简单的UNet网络中用于完成最后的分割任务。

4.1 Motion Feature Extraction

本文的光流估计模块主要是基于PWCNet，模型结构见下图。
PWCNet
对于输入的两张图片 $I_1$ 和 $I_2$ ，PWCNet对于每张图片均会生成 $L$ 层的特征金字塔，对于每一层特征，PWCNet将会将 $I_2$ 的特征warp到 $I_1$ 对应层的特征上，然后PWCNet将会构建一个Cost Volume用于存储当前帧和前一帧对应像素之间的Matching Costs，最终PWCNet将会基于上一层上采样后的光流预测结果以及当前层的Cost Volume来预测本层对应的光流。