Abstract
自主亮点检测是提高社交媒体平台上视频浏览效率的关键。为了以数据驱动的方式实现这一目标,人们可能经常面临这样一种情况:在实践中使用的目标视频类别上没有高亮注释,而对另一个视频类别(称为源视频类别)可以实现监督。在这种情况下,通过将从源视频类别获得的高亮知识转移到目标视频类别,可以得到目标视频类别上有效的高亮检测器。我们将这个问题称为跨类别的视频高亮检测,这在以前的工作中很少被研究。为了解决这一实际问题,我们提出了一个基于双学习者的视频高显示检测(DL-VHD)框架。在此框架下,我们首先设计了一个基于设置的学习模块(sl模块),通过在更广泛的背景下评估视频片段的突出程度来改进传统的基于成对的学习。基于这种学习方式,我们引入了两种不同的学习者,分别获得目标类别视频的基本区别和源视频类别上突出时刻的特征,这两种精亮知识通过知识蒸馏进一步巩固。在三个基准数据集上的大量实验证明了所提出的SL模块的优越性,并且DL-VHD方法在各种跨类别突出检测任务上优于五种典型的无监督域自适应(UDA)算法。我们的代码可以在https://github.com/ChrisAllenMing/Cross_Category_Video_Highlight上找到
Introduction
如今,人们对在YouTube和Instagram等社交媒体平台上分享录制自己日常生活的视频越来越感兴趣。然而,在大多数情况下,真实世界事件的原始视频包含了许多与其要点无关的内容,手动挑选出视频的突出部分是一项繁重而耗时的任务。因此,为了提高视频内容细化的效率,需要开发一种自主视频高亮检测的机器学习模型。为了赋予模型识别视频中高亮片段的能力,现有的工作探索了各种监督方式,包括明确的高亮注释,特定视频片段的频繁出现,一个视频的持续时间等等。这些方法通常侧重于为特定的视频类别(如冲浪、滑雪、跑酷等)训练一个突出的检测器,而高光检测模型在不同视频类别之间的可转移性在以前的工作中研究较少。事实上,在实际应用中,可以面对拟在实践中使用的目标视频类别缺乏监控信号,而对另一个视频类别有监督,如图1所示。在这种情况下,我们考虑了跨类别视频高亮检测的问题。这个问题的设置类似于无监督域适应(UDA)[20],其中人们试图将从标记的源域(带监督的源视频类别)学习到的知识适应到未标记的目标域(无监督的目标视频类别)。此外,为了优化亮点检测器,大多数现有方法遵循基于对学习的哲学,即将正样本(例如高亮视频片段或片段包含亮点的片段包)进行比较,训练后,前者的排名预计高于后者。例如,在一场足球比赛中,球员运球的时刻比球员进入球场更有吸引力,而且两者都不如进球的时刻令人兴奋。这些关系很难被单个片段对捕获,这使得基于对学习的模型的突出预测在整个视频范围内可能不精确。基于上述事实,在本工作中,我们提出了一个基于双学习者的视频高显示检测(DL-VHD)框架来解决跨类别视频高显示检测问题。在此框架下,我们首先设计了一个基于集的学习模块(sl模块)来改进传统的基于对的学习方式的突出检测方法。**简而言之,该模块学习回归同一视频的一组片段上回归高亮分数分布,其中使用变压器编码器来建模不同视频片段之间的相互关系。**基于这种学习机制,我们进一步引入了两种不同的学习者来捕捉关于突出时刻的两种类型的知识。具体来说,粗粒度学习者获得了目标类别视频与其他类别视频的区别的基本概念,细粒度学习者获得了源视频上的精确突出概念。通过将这两种知识提炼到另一个学习者中来进一步整合,这些整合的知识形成了关于目标视频类别上的突出时刻的更完整的概念。在实践中,当目标视频类别上有分割级注释时,可以将SL-模块单独应用于得到有效的高光检测器,而当无法获得这种注释时,我们可以采用DL-VHD方法进行高光知识转移。我们的贡献可以总结如下:
1.据我们所知,这项工作是第一次尝
Cross-category Video Highlight Detection via Set-based Learning
最新推荐文章于 2024-09-21 12:49:46 发布
本文提出DL-VHD框架,通过双学习者解决跨类别视频高亮检测问题。SL模块改进传统对学习,利用上下文信息提高精度。实验显示,DL-VHD在各类任务中超越典型UDA算法,适用于社交媒体视频内容筛选。

最低0.47元/天 解锁文章
1771

被折叠的 条评论
为什么被折叠?



