在今年的IEEE冬季计算机视觉应用会议上,某中心的视频服务团队展示了两篇论文。一篇是关于体育场配准,即理解体育视频中描绘物体之间的空间关系。另一篇是关于片头与剧情回顾检测,即自动识别电视节目开头包含片头(如演职员表、主题音乐)和剧情回顾(情节前情提要)的片段,以便观众在需要时跳过这些内容。
体育场配准
体育场配准涉及将视频图像映射到场地的地形模型上,以增强视频流的观看体验。它是在美式足球转播中显示虚拟首攻线或在游泳转播中显示虚拟世界纪录线的技术基础。
通常,体育场配准需要配备传感器并对准场地参考点的现场摄像机。将传感器输出与摄像机视频结合,可以产生非常精确的场地配准。我们解决的问题是在没有仪器设备的情况下,仅使用能够进行平移、倾斜和变焦运动的单摄像头视频进行体育场配准。这可能为小联盟或业余体育赛事、冷门体育项目的转播,甚至大型体育赛事中未配备仪器的辅助摄像机信号增添前沿图形效果。
以往关于此问题的工作仅使用少数关键点(通常是场地上划线交叉点)对场地地形进行建模。而我们则使用密集的关键点网格对场地进行建模。
使用根据我们建模方案标注的视频数据,我们训练了一个神经网络,将图像像素与场地模型中的特定关键点关联起来。密集网格提高了我们配准的精度,前提是我们能正确识别关键点。当然,不在场线交叉点上的关键点更难识别。
因此,我们使用第二个信息来源来改进我们的映射。这是一组密集的场地特征,表示场地上标准线之间以及其他可识别区域之间的距离。例如,在关键点表示绝对场地位置的同时,密集特征集表示相对于场地重复视觉元素的相对位置。因此,它是一个互补的特征集,改善了视频帧与体育场之间的映射。
然而,使用密集特征来验证关键点会增加计算开销,而我们的系统需要实时工作。因此,我们的网络架构包含了几个旨在减少这种开销的特性。首先,它是一个多任务网络:从输入数据中,它产生一个单一的向量表示,该表示同时传递给关键点估计器和密集特征提取器。其次,网络仅在认为关键点估计可能不准确时,才使用密集特征进行验证。具体来说,给定视频帧的初始关键点估计,网络对关键点进行多次不同采样,并确定它们是否彼此对齐。如果不对齐,则使用密集特征来优化其估计。
通过结合这些技术,我们能够使体育场配准系统实时工作。在测试中,我们将其与多个先进的体育场配准系统在五个数据集上进行了比较:足球、美式足球、冰球、篮球和网球。在不同体育项目上,我们系统的性能从与基线相当到远远优于基线。例如,对于美式足球,根据标准版本的交并比度量,我们的系统比表现最佳的基线准确2.5倍。
片头与剧情回顾检测
某中心视频服务的热门节目(例如《了不起的麦瑟尔夫人》)的粉丝熟悉跳过每集开头片头(通常包含演职员表和主题音乐)和剧情回顾(剧情快速摘要)的选项。然而,对于现有内容,提供跳过片头和回顾的选项需要手动编码。我们希望通过对片头和剧情回顾的自动检测,将此选项扩展到该中心视频服务的其他节目中。
片头和剧情回顾都具有使其可被检测的显著特征。片头往往涉及屏幕上叠加的文字(演职员表),背景通常有较长的音乐表演,而剧情回顾通常涉及场景之间异常快速的剪辑。通常,它们也由文字引入。
我们的检测器是一个神经网络,其架构选择旨在最大化对片头和回顾中这些元素的响应。与需要整个视频系列来查找片头和回顾时间戳的替代方法不同,我们的方法可以独立处理每一集,这使其更加实用。
在我们的系统中,给定的视频帧首先传递到卷积神经网络。CNN被设计为逐步处理输入图像,对连续的像素块应用相同的过滤器。因此,无论文本出现在屏幕的哪个区域,它都能学会识别文本。我们还将输入的音频传递给同一个CNN,该网络学习音频和视频的融合表示。
CNN的输出然后传递到双向长短期记忆网络。Bi-LSTM是一种按顺序处理序列输入的神经网络,因此每个输出都反映了其之前的输入和输出。Bi-LSTM对同一序列同时进行前向和后向处理。这使得我们的网络能够识别更长期的依赖关系,例如特定视频序列中的剪辑速率。
最后,LSTM的输出传递到条件随机场,该场本质上执行曲线平滑。视频段内更平滑的轮廓使得段与段(例如,片头和剧情回顾之间,或它们与剧集新内容之间)的边界识别更清晰。
在测试中,我们将系统的性能与使用相同CNN但采用不同方法处理CNN输出的基线进行了比较:单层LSTM;两层LSTM;Bi-LSTM;以及使用维特比解码而非CRF进行平滑的Bi-LSTM。我们发现我们的系统显著优于所有四个基线。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
3638

被折叠的 条评论
为什么被折叠?



