细粒度第一人称视角手与物体分割:数据集、模型及应用
1. 引言
从第三人称视角观看某人做饭,我们能回答诸如“这个人在做什么食物?”或者“这个人使用了什么烹饪技巧?”之类的问题。而第一人称视角的视频,往往能展现人类行为的更详细信息,比如“将牛排切成片需要什么手指姿势?”“用所有零件和螺丝组装宜家桌子的步骤是什么?”因此,第一人称视角视频是精细研究和理解人类与世界互动方式的重要信息来源。在这些视频中,视角拥有者的手和与之交互的物体是理解人类行为的极其重要的视觉线索。然而,现有的提取这些线索的工具存在局限性,原因在于其在实际场景中的鲁棒性不足,或者对手与物体的表示过于粗糙。
我们的目标是创建用于构建鲁棒的细粒度第一人称视角手与物体分割系统的数据标签和数据增强工具,使其能够在实际场景中具有泛化能力。利用精细的交互分割,我们展示了如何构建一个高保真模型,该模型可作为理解和建模人类手与物体行为的基础。
构建鲁棒的第一人称视角手与物体分割模型的首要因素是高质量的标注数据集。以往的工作构建的第一人称视角视频手部分割数据集,大多局限于实验室环境或有限场景,且缺乏交互物体的标签。最近,100 - DOH 努力对大规模的手与物体交互进行标注,但标签仅为边界框级别。为了填补这一空白并进一步推动对手与物体交互的精细理解,我们提出了一个包含 11243 张图像的新数据集,带有逐像素分割标签。该数据集的主要特点是包含非常多样化的手与物体交互活动和场景,这些帧是从 Ego4D、EPIC - KITCHEN、THU - READ 以及我们自己收集的 GoPro 视频中的近 1000 个视频中稀疏采样得到的。此外,我们还提供了关于物体是由左手、右手还是双手交互,以及是直接交互(接触)还是间接交互的细粒度标签。 </
超级会员免费看
订阅专栏 解锁全文
915

被折叠的 条评论
为什么被折叠?



