文章目录
任务
text-to-video temporal grounding:
以视频片段和查询语句(也就是文本)作为输入,返回与查询语句相关的视频片段的起止时间。
文中带言,传统方法一般是生成proposal然后去match,通过最大化真值match指标来训练网络。而本文在双模态交互中充分利用全局和局部的上下文信息。
(个人感觉:就是分别用全部文本信息,局部文本信息,去融合视频信息,最后回归得到目标起止时间。至于如何提取局部上下文信息,以及如何去融合两个模态信息就是文章要考虑的,也是可以持续思考的内容。)
方法
主图镇楼:
整个方法分为4个部分:
1、 Encoders
- Query encoding Glove + 双层双向LSTM
- Video encoding 3D-CNN + position feature
原文的表示如下:
f v f_v fv表示3D-CNN
embedding matrix W p o s W_{pos} W