顶会论文 | 阿里云视频摘要SOTA模型:用于视频摘要的多层时空网络

阿里云创新:多层时空网络在视频摘要的突破
本文介绍了阿里云团队在ACMMM2022会议上发表的关于视频摘要的研究成果,提出了一种名为MLSN的多层时空网络,解决了长镜头视频摘要的挑战。MLSN利用多层特征表征和局部相对偏序损失函数,提高了长时空跨度帧的可比性,并通过DKFS算法实现更优的片段选择,有效应用于阿里云的实际业务中,展示了在视频摘要领域的领先性能。

作者:白钰 阿里云高级算法专家/消费者终端智能部算法负责人

这次向大家分享的工作是笔者所负责团队在国际人工智能多媒体顶会 ACM MM 2022 (CCF-A)发表的文章 “Multi-Level Spatiotemporal Network for Video Summarization”,该文提出了一种用于视频摘要的多层时空网络,在视频摘要领域实现了全球领先的研究探索。基于我们团队在工业级推荐系统方面的研究积累,我们成功地在阿里云产业大规模视频摘要场景实践中解决了一个视频摘要领域的重要问题,推动了该领域的发展。

论文地址:Multi-Level Spatiotemporal Network for Video Summarization | Proceedings of the 30th ACM International Conference on Multimedia



从宏观上讲,视频摘要任务与搜索引擎和推荐系统具有共同的核心目标,即有效地对候选内容进行评分和排序,甚至为了实现性能与效果的平衡,架构上也同样可将其分解为召回、粗排和精排几个阶段。然而,视频摘要任务也有其特定的性质,特别是候选内容的时序依赖性以及基于评分的摘要生成算法。本文探讨了视频摘要任务的挑战,重点介绍了 MLSN 模型的技术细节和在阿里云的实践经验,以帮助读者更好地理解 MLSN 的设计思想。

一、背景介绍

随着 4/5G 等通信技术的发展和泛在视频采集设备的普及,每时每刻都有大量的视频内容被生产出来,从而为各行各业中出现的大量视频内容检索需求提供了可能性。其中一个最典型的场景即是帮助消费者有效地查找自己感兴趣的视频片段,这类应用的井喷式发展也对自动化视频摘要系统提出了更高的要求。然而,现有的主流的视频摘要数据集以短镜头视频为主,这导致针对长镜头视频内容设计的摘要算法研究极少。

为此,本文提出了一种能够自适应不同镜头长度的多层时空网络(Multi-Level Spatiotemporal Network,MLSN),以解决既有方案无法有效地处理以产业中包含大量冗余信息长镜头数据为主要难点的视频摘要问题。该网络由 Multi-Level Feature Representations(MLFR)和 Local Relative Loss(LRL)组成,MLFR 模块可以灵活地捕捉和容纳不同镜头时长下视频的各时空粒度语义信息,而 LRL 则利用每个片段帧间的局部相对偏序关系,捕获具有高辨别力的特征。MLSN 具有镜头时长自适应的系统架构,极大地提升了长时空跨度帧的可比性,并提出了更优秀的精细粒度选择算法(Diverse Key Fragments Selection,DKFS),这些优秀特性使得该算法被广泛应用于阿里云的主要业务并取得了显著的效果。

总的来说,Multi-Level Spatiotemporal Network(多层时空网络,MLSN)具有以下几个出色特点:

  1. 具有镜头时长自适应的网络结构。本研究中提出的网络能够有效对不同长度镜头的视频摘要任务进行处理,该模型由多层时空特征表征模块和多层特征融合模块组成。它可以灵活地捕捉和容纳不同镜头时长下视频的各时空粒度语义信息,从而实现自适应不同镜头长度的摘要任务。

  2. 极大地提升长时空跨度帧的可比性。本研究提出了局部相对偏序损失函数(LRL),这一损失函数利用偏序关系的传递性和相邻帧间的语义信息更具时空连续性进而更具可比性的特点,引入局部相对偏序关系作为监督信号,改进了与现有公开方法只比较没有局部时空关系的帧的做法,大大提高了长时间跨度帧的可比性从而提高排序效果。

  3. 更优秀的精细粒度选择算法。本研究提出了名为基于多样性的关键片段选择算法(DKFS)的摘要生成算法,该算法在每个镜头中,会选择不同的关键片段作为视频摘要的候选片段,而不是像基于动态规划的算法一样将具有大量冗余信息的整个镜头作为候选片段,在抑制冗余信息时取得了优异的表现,解决了长镜头视频摘要任务的难点。

二、既有方法的局限性

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值