Motivation
现存的视频检索的工作都是concept based的方法,从视频和文本中寻找各自对应的概念,在现实场景中比较难以使用,作者提出concept free方法,加入多种特征的双塔模型,简单高效。
Contribution
提出一个多级的编码方式,映射到同一空间
渐进式地学习局部、全局和时序的特征
不错的效果

Method

如图,视频和文本的模型差不多,对于视频先用预训练好的模型提取特征,通过平均池化得到全局特征,通过双向GRU得到时序特征,通过双向GRU和一维卷积得到局部特征,之后拼接到一起作为视频的特征,对于文本也是一样的。这样得到的视频和文本的特征映射到同一空间后使用VSE++进行common space learning。
损失函数使用improved marginal ranking loss,同时使用了难样本挖掘的方法。
Experiments
作者做的实验非常多,在5个数据集上做了实验。其中包括了一个TRECVID的比赛Evaluating ad-hoc and instance video search, events detection, video captioning and hyperlinking



作者还计算了efficiency

Codes
https://github.com/danieljf24/dual_encoding
关于VSE++的代码:https://github.com/fartashf/vsepp
本文介绍了一种新颖的视频检索方法,采用概念自由的双塔模型,通过多级编码处理视频和文本特征,实现全局、局部和时序特征的融合。实验覆盖多个数据集,并展示了在TRECVID比赛中的优秀表现,同时评估了模型的效率。代码开源,关注VSE++编码和改进的边际排名损失函数。
2176

被折叠的 条评论
为什么被折叠?



