《Cross-Modal and Hierarchical Modeling of Video and Text》(2018 ECCV)
这篇文章主要介绍了一个叫做分层序列嵌入(Hierarchical Sequence Embedding, HSE)的通用模型,其作用是对不同模态的数据进行分层建模并利用模态间的对应关系来学习模型参数。文章以文本和视频之间的检索为例进行介绍,并在大型数据集上做了实验。
HSE是在已有的FSE(Flat Sequence Embedding)的基础上改进后的模型。FSE的模型如下:
FSE是一种原始的seq2seq方法,它不考虑视频或文本中的层次结构,因此称为平面序列嵌入。如下式所示。
然后得到相似度:
但是FSE的一个明显的缺陷在于其LSTM层需要大量的单元才能很好地对视频帧或者单词进行建模,因此优化和学习都会比较困难。而HSE在FSE的基础上添加了一些组件,从而可以从多个粒度来考虑视频和文本之间的对应关系,较好地利用数据中的层次结构来减