ICMR 19:Temporal Activity Localization by Language

本文介绍了ACM ICMR 2019 oral paper的研究成果,提出了时空注意力模型(SLTA)用于视频时刻检索。SLTA包含空间注意力和语言-时序注意力两个分支,通过关注关键物体、交互动作和query关键词,实现视频中相关事件的精确定位。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍一下我之前在校,独立完成的一项工作,已被ACM ICMR 2019 接收为oral paper

论文:《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》

代码:https://github.com/BonnieHuangxin/SLTA

一、论文任务

Examples:

Temporal Moment Retrieval:即给定一个查询句子(包含对视频中动作的描述),在视频中找到对应动作(事件)的起止时间。

key challenges(论文动机):

1)Recognization of relevant objects and interactions.

在未修剪的视频常常包括大量的人物活动、物体以及物体之前的交互,而仅有其中的少部分与query language的描述的内容有关。

以上图为例,通过language query 检索到的视频片段中涉及到了物体"girl"、"cup"以及时序动作 "pour"。因此,如何将包含与query内容相关的 物体及物体的交互 与 其它视频片段 区分开是一个具有挑战性的任务。

2)Comprehension of crucial query information.

在query language中的一些关键词传达了检索相关片段的关键线索。

以句子“A person puts dishes away in a cabinet”为例,“dishes” , “cabinet”以及时序动作词“put"对片段检索的贡献度最大。

二、论文原理

我们提出了"Spatial and Language-Temporal Attention model(SLTA)即 空间与语言-时序注意力。它包括两个分支注意力网络,分别为空间注意力、语言-时序注意力。

具体而言:

1)首先,我们提取视频帧object-level的局部特征,并通过 空间注意力 来关注与query最相关的局部特征(例如,局部特征“girl”,“cup”),然后对连续帧上的局部特征序列进行encoding,以捕获这些object之间的交互信息(例如,涉及这两个object的交互动作“pour”)

2) 同时,利用 语言-时序注意力网络 基于视频片段上下文信息来强调query中的关键词。

因此,我们提出的 两个注意力子网络 可以识别视频中最相关的物体和物体间的交互,同时关注query中的关键字。

三、模型介绍

a) 模型结构

输入: 一组候选视频片段

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值