本文介绍了一篇名为“Counting Out Time: Class Agnostic Video Repetition Counting in the Wild”的论文,该论文提出了一种能够在视频中检测重复动作并进行计数的 AI 模型。
论文中描述了三种不同类型的重复动作:跳绳、弹跳的网球和铲水泥。这些动作的重复频率、时长和外观都不尽相同,给 AI 模型识别带来了挑战。
该模型通过卷积神经网络对视频进行编码,并构建时间自相似矩阵来检测重复动作。然后,另一个神经网络对矩阵进行解码,生成最终的预测结果。模型的训练是端到端的,并且论文还创建了一个新的数据集用于训练和评估模型。
论文的重点在于解决三个问题:
- 帧级周期性预测: 识别视频中每个帧是否存在重复动作。
- 帧级周期长度预测: 确定每个包含重复动作的帧的周期长度,该长度可能在视频中发生变化。
- 重复次数计数: 基于帧级周期长度预测计算视频中重复动作的总次数。
这篇论文为识别和计数视频中的重复动作提供了一种新方法,并展示了该方法在处理各种不同类型的重复动作方面的有效性。
在视频中计数重复的动作对于人类来说是最简单的任务之一,但对于机器来说却仍然非常困难。RepNet 通过创建一种以时间自相似矩阵形式的信息瓶颈来实现最先进的水平,该矩阵以一种迫使模型呈现与计数相关的必要信息的方式将视频帧相互关联。除此之外,作者还为评估计数模型制作了一个新的数据集。
大纲:0:00 - 简介和概述2:30 - 问题陈述5:15 - 输出和损失6:25 - 每帧嵌入11:20 - 时间自相似矩阵19:00 - 周期性预测器25:50 - 架构回顾27:00 - 合成数据集30:15 - Countix 数据集31:10 - 实验33:35 - 应用35:30 - 结论和评论论文网站:https://sites.google.com/view/repnetColab:https://colab.research.google.com/github/google-research/google-research/blob/master/repnet/repnet_colab.ipynb
摘要:我们提出了一种估计视频中动作重复周期的方法。该方法的关键在于约束周期预测模块使用时间自相似性作为中间表示瓶颈,从而允许泛化到现实世界中视频中未见过的重复。我们使用合成数据集训练这个模型(称为 RepNet),该数据集是从一个大型未标记的视频集合中生成的,方法是采样不同长度的短片段并以不同的周期和计数重复它们。这种合成数据和强大但受限的模型的组合,使我们能够以类不可知的方式预测周期。我们的模型在现有的周期性 (PERTUBE) 和重复计数 (QUVA) 基准测试中显著超过了最先进的性能。我们还收集了一个新的具有挑战性的数据集,称为 Countix(比现有数据集大约 90 倍),它捕捉了现实世界视频中重复计数的挑战。