视频语义分割基准数据集与评估方法

本文介绍了DAVIS数据集,一种专为视频语义分割算法设计的高质量数据集。该数据集包含50个高清视频序列,针对遮挡、运动模糊等挑战进行了优化。文中还详细阐述了用于评估算法性能的三个指标:区域相似性、轮廓准确性和时间连贯性。

概述

本文来源于《A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation》,论文主要介绍了一种作者团队提供的针对视频语义分割算法进行评估的基准数据并提供了三种指标用于评估算法效果的优劣。本文主要是个人在阅读该论文的的一些所得,但由于论文内容所致,本文阅读起来更像一篇说明文档,提供与此,仅供参考。

DAVIS由50个高质量,全高清的视频序列组,包含有多个视频目标分割挑战,如遮挡,运动模糊和外观变化。每一个视频都是稠密标注,像素级别的精度和逐帧的真值分割(将前景对象与背景区域精确像素分离)。同时提出了三种互补的度量标准(区域相似性、轮廓准确性以及时间连贯性)来对当时几种最新的的分割方法进行综合分析。

数据集说明

根据以往的数据集经验,整个数据集重点关注四个关键方面,来创建一个平衡全面的数据集。

1. 数据的数量和质量

首先,一个好的数据集要有足量的数据,这是确保内容的多样性并提供一组均匀分布的挑战的前提。并且拥有足量的数据对于避免过度拟合和延迟性能起到至关重要的作用,同时这在一定程度上也保证数据集具有更长的使用寿命。

另一方面,数据的质量也非常重要, 数据集的质量需能反映现有技术的水平

基于上边两个因素,构建了DAVIS数据集,DAVIS构成包括50个序列共3455标注帧视频帧率为24fps,分辨率为1080p。

同时由于当前计算复杂度是视频处理的一个重要瓶颈。因此,为了减少计算的复杂程度,DAVIS中的视频序列采用较短的时间长度(2-4秒),但是它涵盖了大部分在长视频序列中找到的挑战。

2. 实验验证

对于视频中的每一帧,提供了像素级别的精度,以二进制掩码的方式手工创建分割结果

每个DAVIS数据集细分成分成训练集和测试集两个部分。但在评估的时候,不使用分区,而是考虑整个数据集,因为大多数的评估方法不需要训练,并且由于计算复杂度,网格搜索最优参数的估计是不可行的。

3. 对象存在

每个序列都应包含至少一个要与背景区域分开的目标前景对象。

选择不使用多个具有明显运动的不同对象,以便能够公平地将对单个对象进行操作的分段方法与对多个对象进行联合分段的方法进行比较。
此外,每个序列只有一个对象,这将消除通过全自动方法执行的检测的歧义(因为检测的目标只有一个)。

4. 无约束视频挑战

为了能够对算法的性能进行更深入的分析和理解,识别可能影响算法性能的关键因素和环境是至关重要的。因此定义一个扩展的视频属性集合,用于代表特殊情况,如快速运动,遮挡和杂乱背景这些典型的视频分割挑战。

具体属性及其含义如下表所示:

ID Description
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值