华科团队发布 OVIS 遮挡视频实例分割基准数据集

华中科技大学、阿里巴巴等机构的研究人员推出OVIS数据集,专用于遮挡视频实例分割,旨在解决计算机视觉中因遮挡造成的识别困难。该数据集包含901段严重遮挡视频,涉及25种常见类别,提供了大量高质量标注,以推动遮挡视频实例分割技术的发展。

内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性。而很多场景中由于遮挡情况,使得实例分割成为难题中的难题。近日,来自华中大、阿里等机构的研究人员,为了解决这一问题,提出了一个大规模遮挡视频实例分割数据集 OVIS。

原创:HyperAI超神经

关键词:遮挡视频 实例分割 计算机视觉


在计算机视觉中,目标检测是最核心的问题,在目标检测中,实例分割又被看做是一项最具挑战的任务。实例分割,就是在目标检测的基础上,分割出物体的像素。

物体间常常存在相互遮挡,这也成为了工程师们头疼的问题。我们人类看到被遮挡的物体,能够凭借经验或联想识别出来。

那么,在计算机视觉中,能否像人类一样,准确识别出被遮挡物体呢?在实例分割这一研究命题里,解决遮挡带来的干扰,一直是重要的研究方向。

理想中的实例分割
理想中的实例分割

 

实际中的实例分割

 

为了解决这一难点,来自华中科技大学、阿里巴巴、康奈尔大学、约翰霍普金斯大学以及牛津大学的团队,收集了一个用于遮挡视频实例分割的大规模数据集 OVIS(Occluded Video Instance Segmentation ),可用于同时检测、分割和跟踪遮挡场景中的实例。

 

数据集中的目标对象主要包括动物、人、交通工具等常见类别

这是继谷歌 YouTube-VIS 数据集之后,第二个大规模遮挡视频实例分割数据集。

OVIS:诞生于 901 段严重遮挡视频

对于我们平时目之所及的一切,几乎很少有物体孤立地出现,都或多或少存在遮挡情况。不过,研究表明,对于人类视觉系统来说,在遮挡情况下依然能区别目标对象的实际边界,而对于计算机视觉系统来说,就成为了一个大难题,也就是遮挡视频实例分割问题。

为了进一步探索并解决这一问题,来自华科、阿里等机构的团队,试图在原有开源的实例分割算法上,开发出更优的模型。

为了完成这项工作,团队首先收集了 OVIS 数据集,专门用于遮挡场景中的视频实例分割。在最近发表的论文《Occluded Video Instance Segmentation》中,详细介绍了这一数据集。

遮挡视频实例分割

论文地址:https://arxiv.org/pdf/2102.01558.pdf

为了收集该数据集,团队一共采集了近万段视频,并最终从中挑选出了 901 段遮挡严重、运动较多、场景复杂的片段,每段视频都至少有两个相互遮挡的目标对象。

其中大部分视频分辨率为 1920x1080,时长在 5s 到 60s 之间。他们按每 5 帧标注一帧的密度,进行了高质量标注,最终得到了 OVIS 数据集。

OVIS 共包含 5223 个目标对象的 296k 个高质量 mask 标注。相比之前谷歌 Youtube-VIS 数据集的 4883 个目标对象以及 131k masks 标注,OVIS 显然拥有更多的 目标对象和 masks 标注。

不过,OVIS 使用的视频实际上少于 YouTube-VIS,因为团队的理念倾向于时长更长的视频,以实现长期跟踪功能。OVIS 的平均视频时长和平均实例时长分别为 12.77s 和 10.55s,对应的,YouTube-VIS 这两个参数分别是 4.63s 和 4.47s。

OVIS 数据集与 YouTube-VIS 数据集相关参数对比

团队为了使遮挡视频实例分割的任务更具挑战性,牺牲了一定的视频段数,标注了更长、更复杂的视频。

OVIS 数据集共包含 25 种生活中常见的类别,如下图所示,具体种类包括:人,鱼,车辆,马,羊,斑马,兔子,鸟,家禽,大象,摩托车,狗,猴子,船,乌龟,猫,牛,鹦鹉,自行车,长颈鹿,老虎,大熊猫,飞机,熊和蜥蜴。

这 25 个类别均为常见的语义类别

之所以选择这些类别,主要是考虑到以下三点:

  1. 这些目标往往处于运动状态,也更容易发生严重的遮挡;

  2. 它们在生活中很常见;

  3. 这些类别与目前流行的大型图像实例分割数据集(如 MS COCO,LVIS,Pascal VOC 等)有很高的重叠,因此方便研究人员进行模型的迁移和数据的复用。

与先前的其他 VIS 数据集相比,OVIS 数据集最显著的特点在于,很大一部分物体,都因不同因素被严重遮挡。因此,OVIS 是评估视频实例分割模型处理严重遮挡的有效测试平台。

为了量化遮挡的严重程度,团队提出了一个指标 mean Bounding-box Overlap Rate (mBOR)来粗略的反映遮挡程度。mBOR 指图像中边界框重叠部分的面积占所有边界框面积的比例。从参数对比列表中可以看出,相比于 YouTube-VIS,OVIS 有着更严重的遮挡。

OVIS 数据集详细信息如下:

Occluded Video Instance Segmentation

遮挡视频实例分割数据集

数据来源:《Occluded Video Instance Segmentation》

包含数量:5223 个目标对象,296k 个 masks

种类数量:25 种

数据格式:框架:jpg;注释:Json

视频分辨率:1920×1080

数据大小:12.7 GB

下载地址:https://hyper.ai/datasets/14585

 OVIS 对视频实例分割提出更高基准

OVIS 数据集被随机分为 607 个训练视频、140 个验证视频和 154 个测试视频。团队在 OVIS 上对 5 种现有的开源视频实例分割算法,进行了综合评估,同时这也是对 OVIS 数据集的基线性能进行基准测试。

评估结果如下表所示:

在 OVIS 验证和测试集上,各个方法的定量比较

 

在 YouTube-VIS 验证集上各方法表现

 

与 YouTube0-VIS 相比,FEELVOS、IoUTracker+、MaskTrack  R-CNN、SipMask 以及 STEm-Seg 五种算法,在 OVIS 上的性能都至少下降了 50%。比如,SipMask 的 AP 从 32.5 降到 12.1,而 STEm-Seg 从 30.6 降到 14.4。这些结果都在提醒研究者们,应进一步关注视频实例分割问题。

此外,团队通过使用校准模块,在原有算法基础上,显著提高了其性能。其开发的 CMaskTrack R-CNN 比原算法 MaskTrack R-CNN 的 AP 改善了 2.6,从 12.6 提升至 15.2,CSipMask 比 SipMask 改善了 2.9,从 12.1 提升至 15.0。

CMaskTrack R-CNN 在 OVIS 上的定性评价,每行显示视频序列中 5 帧的结果

 

在上图的图(c)中,鸭群比较拥挤的场景下,团队的方法几乎正确检测和跟踪了所有的鸭子,不过第二帧最左边的一个鸭子检测失败。不过,在之后的帧中,这只鸭子又被重新跟踪,证明团队的模型很好地捕获了时间线索。

团队又在 YouTube-VIS 数据集上进一步评估了他们提出的 CMaskTrack R-CNN 和 CSipMask  算法,结果与原方法相比,在 AP 上都超越了原方法。

未来应用:视频全景分割、合成遮挡数据

团队表示,常用的视频分割算法在 OVIS 的基线表现,远远低于在 YouTube-VIS 上的表现,这表明未来,研究者应该在遮挡视频对象处理上投入更多精力。

此外,团队利用时态上下文线索,探索了解决遮挡问题的方法,将来,团队将在无监督、半监督或交互式设置下,在视频对象分割场景中,将 OVIS 的实验轨迹形式化。另外,将 OVIS 扩展到视频全景分割也是至关重要的(注:视频全景分割即同时实现对背景的语义分割和前景的实例分割,这是实例分割领域近来的新趋势)。

背景对目标对象造成遮挡,这会影响算法对背景的预测

 

此外,合成遮挡数据也是团队需要进一步探索的方向。团队表示,相信 OVIS 数据集将引发更多在复杂和多样场景下理解视频的研究。

这一技术未来在影视剧特效、短视频、直播中,人物与背景的分离工作中都将起到重要作用。

参考资料:

论文地址:https://arxiv.org/pdf/2102.01558.pdf

项目官网:http://songbai.site/ovis/

谷歌 YouTube-VIS 数据集:

https://youtube-vos.org/dataset/vis/

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容(点击图片阅读)

Leo CT 实例分割数据集 一、基础信息 • 数据集名称:Leo CT 实例分割数据集 • 图片数量: 训练集:17张图片 验证集:8张图片 测试集:5张图片 总计:30张图片 • 训练集:17张图片 • 验证集:8张图片 • 测试集:5张图片 • 总计:30张图片 • 分类类别:包含29个类别,具体为 leoct001, leoct002, leoct003, leoct004, leoct005, leoct006, leoct007, leoct008, leoct009, leoct010, leoct011, leoct012, leoct013, leoct014, leoct015, leoct016, leoct017, leoct018, leoct019, leoct021, leoct022, leoct023, leoct024, leoct025, leoct026, leoct027, leoct028, leoct029, leoct030 • 标注格式:YOLO格式,包含多边形点坐标,适用于实例分割任务。 • 数据格式:JPEG图像文件。 二、适用场景 • 医学影像AI分析系统开发:数据集支持实例分割任务,帮助构建能够精确分割CT图像中不同区域的AI模型,辅助医生进行病灶定位或结构识别。 • 健康诊断应用研发:集成至医疗AI工具,提供自动化图像分割功能,用于疾病筛查或解剖结构分析。 • 学术研究与临床创新:支持计算机视觉与医学影像的交叉研究,推动AI在医疗诊断中的算法优化和应用创新。 • 医学教育与培训:数据集可用于医学院校或专业培训,作为学习图像分割技术和AI模型开发的实用资源。 三、数据集优势 • 精准标注适配任务:采用YOLO格式的多边形点坐标标注,确保分割边界精确,直接适用于实例分割任务,兼容主流深度学习框架。 • 类别多样覆盖广:包含29个类别,涵盖多种潜在对象或区域,增强模型对不同场景的泛化能力。 • 结构紧凑高效:数据量适中(30张图片),标注质量高,适用于快速原型验证、算法测试和研究开发。 • 任务专用性强:专注于实例分割需求,数据标注直接支持从模型训练到部署的全流程,减少预处理负担。
机器人实例分割数据集 数据集名称:机器人实例分割数据集 图片数量: - 训练集:264张图片 - 验证集:28张图片 - 测试集:20张图片 总计:312张机器人场景图片 分类类别: - Robots(机器人):专注于机器人实例的精确识别与分割,覆盖多角度、多形态的机器人目标。 标注格式: - YOLO格式标注,包含机器人实例的多边形轮廓坐标点(如样例中每组40+坐标点) - 支持实例分割任务,提供像素级目标轮廓标注 - 数据来源:真实机器人应用场景,涵盖室内外多种环境 1. 机器人视觉系统开发: 训练机器人识别环境中的同类或异型机器人目标 适用于机器人协作、集群调度等工业自动化场景 1. 训练机器人识别环境中的同类或异型机器人目标 1. 适用于机器人协作、集群调度等工业自动化场景 1. 实例分割算法研究: 提供高质量机器人轮廓标注,支持Mask R-CNN等分割模型训练 可用于复杂背景下目标分离的学术研究 1. 提供高质量机器人轮廓标注,支持Mask R-CNN等分割模型训练 1. 可用于复杂背景下目标分离的学术研究 1. 机器人竞赛与教育: 作为机器人目标识别任务的基准数据集 适用于机器人视觉课程的实践教学资源 1. 作为机器人目标识别任务的基准数据集 1. 适用于机器人视觉课程的实践教学资源 高精度轮廓标注: - 每个机器人实例标注包含40+轮廓坐标点,实现亚像素级边缘刻画 - 覆盖遮挡、重叠等复杂场景,提升模型鲁棒性 任务适配性强: - 兼容YOLOv5/v8等主流实例分割框架 - 支持从目标检测到像素级分割的任务升级 - 可直接应用于ROS等机器人开发平台 场景针对性突出: - 专注机器人单类别识别,满足垂直领域需求 - 包含运动模糊、光照变化等真实场景挑战 - 标注经专业校验,确保工业场景下的识别准确性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值