基于自然语言的多尺度二维时间相邻网络时刻定位论文阅读

本文链接：https://blog.youkuaiyun.com/shy2218/article/details/123972976

基于自然语言的多尺度二维时间相邻网络时刻定位论文阅读

本文任务

检索由查询指定的视频最佳匹配时段。

符号说明

V：未修剪的视频
在这里插入图片描述
x_i代表视频中的帧
l^V代表视频的帧的总数

S：查询序列
在这里插入图片描述
s_i 代表单个单词
l^s代表单词的总数目
M：最佳匹配时段使用x_i x_j分别表示开始和结束帧

对序列嵌入的语言表示

提取查询语句的特征
对于输入句子S中的每个单词Sⁱ通过word2vec模型输入其嵌入矢量

d^S是向量的长度
2. 将单词嵌入
输入三层双向LSTM网络
3. 使用平均输出作为输入句子的特征表示。
4. 提取的特征对查询语句的语言结构进行编码，从而描述感兴趣的时刻。

基于二维时间特征map的视频表示

从输入视频流中提取时刻特征(moment features)，并构建二维时间特征图

对于一个输入视频，我们首先将其分割成小的非重叠的视频片段，每个片段由T个连续的帧组成
对于每个视频片段，我们使用预先训练的CNN模型提取其特征
为了在通道维度上生成更多的压缩视频片段表示，我们将视频片段特征输入一个具有d^V输出通道的全连接层
最终压缩的视频片段被表示为
N是视频片段的总数
N个视频是时刻候选结构的基础元素，因此使用视频片段特征创建候选时刻的map。
使用stacked CNN输出为具有相同特征，但不从同一时间开始的时刻特征。
使用稀疏抽样策略。

通过这种方法，我们对短持续时间的时刻进行了密集采样，当矩持续时刻变长时，逐渐增加采样间隔。

这种采样策略可以大大减少候选矩的数量，同时降低计算量。
将整个采样的时刻重构为一个2维的时间特征map

F^M有三个维度：前两个N分别表示开始和结束索引，d^V表示特征维度。
而一个从v_a这个片段开始持续b个片段在特征map里表示为
将第j层卷积层的第i个输出表示为
它对应于特征映射上的(a,b)的位置：

多尺度二维时间相邻网络

首先将二维时间映射F^M与句子特征F^S融合：通过全连接层将两个跨域特征投影到同一子空间
融合
w^S和W^M代表全连接层的学习参数
1^T代表全1向量的转置

哈达玛积：若A=(aij)和B=(bij)是两个同阶矩阵，若cij=aij×bij,则称矩阵C=(cij)为A和B的哈达玛积，或称基本积
矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和，也就是
将单尺度mapF^F重构为K多尺度的maps
从区间为2^k的融合特征map中取样第k个稀疏map，具体来说：

在这里插入图片描述
多尺度map

从多尺度二维特征maps上建造时间临近网络。每一个map对应于L个gated convolutional 层

L个层的输出和输入形状是相同的(通过补零)–这种设计当学习候选时刻的不同时，能更好地理解上下文
通过网络给出视频片段和查询语句的匹配分数。将输出的特征map分别输入全连通层和sigmoid函数，生成多尺度二维分数图。

C_k是指第k个图里有效候选时段的总数

stacked CNN 深度卷积网络

参考：https://blog.youkuaiyun.com/ljhjiayou/article/details/38380293
针对大图片进行recognition时，需要用到无监督学习的方法去pre-training（预训练）stacked CNN的每层网络，然后用BP算法对整个网络进行fine-tuning（微调），并且上一层的输出作为下一层的输入。
首先我们知道，convolution和pooling的优势为使网络结构中所需学习到的参数个数变少，并且学习到的特征具有一些不变性，比如说平移，旋转不变性。以二维图像提取为例，学习的参数个数变少是因为不需要用整张图片的像素来输入到网络，而只需学习其中一部分patch。而不变的特性则是由于采用了mean-pooling或者max-pooling等方法。
在这里插入图片描述
每输入一张3232大小的图片，就输出一个84维的向量，这个向量即我们提取出的特征向量。
网络的C1层是由6张2828大小的特征图构成，其来源是我们用6个55大小的patch对3232大小的输入图进行convolution得到，28=32-5+1，其中每次移动步伐为1个像素。而到了s2层则变成了6张1414大小的特征图，原因是每次对4个像素（即22的）进行pooling得到1个值。
将S2的特征图用1个输入层为150（=556，不是5*5）个节点，输出层为16个节点的网络进行convolution。