任务介绍:根据一段caption,找出视频中最符合caption的视频片段。
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
视觉端用c3d提取好的特征,以卷积的层数代表帧感受野的大小。对于visual_map上,i,j的位置就代表从第i帧到第j帧的感受野大小的视频片段的特征。文本上用LSTM提取文本特征与visual_map相乘得到score_map。score_map还要经过卷积得到输出的最终分数。
Temporally Grounding Language Queries in Videos by Contextual Boundary-Aware Prediction
直接联合句子所有单词的embedding,来和每一帧做
匹配,判断每一帧是否是分界点。