Cross-modal Moment Localization in Videos论文笔记

该论文提出了一种名为ROLE的跨模态时刻定位网络,通过语言-时间注意力机制学习单词的重要性,改进了视频中的时刻定位。ROLE能自适应地选择关键文本词,结合视频上下文和查询信息进行有效匹配。实验显示,相比MCN和CTRL等模型,ROLE有更优的表现。未来工作将集成空间信息和强化学习以优化模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0.来源

2018年 Cross-modal Moment Localization in Videos

1.摘要

一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。

2.介绍

以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
在这里插入图片描述
如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。首先,作者设计了一个语言-时间注意力模块,用于生成有效的查询表示,根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后,作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后,作者训练了一个多层感知器(MLP)网络来估计所需时刻的相关性分数和位置。

3.模型

3.1语言-时间注意网络

在这里插入图片描述

文本进行word 编码得到et,再双向lstm得到每个word representations,再将时间时刻上下文输入注意力模型,该模型能够分配具有更高重要性分数的更有用的单词。
在这里插入图片描述

在这里插入图片描述
在查询中建立了每个单词的集中嵌入后,我们可以构造查询的表示为:
在这里插入图片描述
然后q和c一起用MLP训练,输出向量oL =[scq, δs, δe ]组成。匹配分数scq和定位偏差δs = ts−τs和δe= te−τe。

3.2损失函数

3.2.1对齐损失

和TALL方式一样,给定从视频V和查询Q中提取的一组时刻候选C,我们将时刻查询对分为两组:对齐的P和不对齐的N。
在这里插入图片描述

3.2.2位置损失

在这里插入图片描述
c表示当前的候选视频片段,q表示文本描述, δs和δe分别表示c的起始帧与结束帧在视频中的时间戳,δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。

训练阶段,偏移回归损失只在正样本上执行。作为测试阶段,一旦我们获得了一个对齐得分最高的候选矩,我们就可以添加具有偏移值的预测位置

3.2.2损失函数

在这里插入图片描述

4.实验

4.1数据集

Charades-STA:TALL论文中提出的数据集
DiDeMo:MCN模型论文提出的数据集

4.2性能比较

在这里插入图片描述
在这里插入图片描述

作者认为

  • MCN表现最差,它简单地将整个时刻集作为每个候选时刻的上下文特征,就会引入噪声特征并导致负转移,而且模态融合也不够好。
  • CTRL也不够理想,他对于整个查询进行了整体编码,忽视了查询文本当中的关键单词。
  • 作者的ROLE表现的比较好
    Note:由于在DiDeMo数据集中,由于正样本查询对对齐得很好(即,它们之间没有位置偏移),我们只利用对齐损失来训练CTRL和ROLE。

4.3 ROLE的几种变体

  • ROLE_NT:每个单词的注意值只与查询和当前时刻相关,而不考虑其视频上下文。
  • ROLE_NV:只依赖于查询词嵌入的查询注意模型,而不是使用语言-时间上的注意。也就是说,消除了所有的时间视觉信息。
  • ROLE_BI:用Bi-LSTM的最后一个输出的连接作为查询嵌入。
  • ROLE_EQ:意思是我们将等式中的权重设置为单词数量的平均值,即1/T。具体来说,T是输入句子的单词数,这种设置有利于平衡每个单词的贡献。
    在这里插入图片描述

5.未来工作

  • 把相应帧的空间信息整合到我们的模型中
  • 强化学习纳入我们的模型,以自适应地决定下一步看哪里和何时预测,而不需要通过多尺度滑动窗口分割生成候选时刻。
  • 我们计划将哈希模块合并到我们的模型中,以加快检索过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值