《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记

任务

text-to-video temporal grounding
以视频片段和查询语句(也就是文本)作为输入,返回与查询语句相关的视频片段的起止时间。
在这里插入图片描述
文中带言,传统方法一般是生成proposal然后去match,通过最大化真值match指标来训练网络。而本文在双模态交互中充分利用全局和局部的上下文信息。
(个人感觉:就是分别用全部文本信息,局部文本信息,去融合视频信息,最后回归得到目标起止时间。至于如何提取局部上下文信息,以及如何去融合两个模态信息就是文章要考虑的,也是可以持续思考的内容。)

方法

主图镇楼:
在这里插入图片描述
整个方法分为4个部分:

1、 Encoders

  • Query encoding Glove + 双层双向LSTM
  • Video encoding 3D-CNN + position feature

原文的表示如下:
在这里插入图片描述
f v f_v fv表示3D-CNN
embedding matrix W p o s W_{pos} W

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值