Sequence to Sequence – Video to Text论文

最新推荐文章于 2025-04-03 10:22:20 发布

yojai

最新推荐文章于 2025-04-03 10:22:20 发布

阅读量1.7k

点赞数

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/gl930628/article/details/70432202

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

出现问题：1.现实世界视频复杂（物件场景行为属性多样化，并且难以确定主要内容正确用文本描述事件）
2.对视频描述需要对时间结构敏感以及允许可变长度的输入（视频帧）输出（文本）
方法：端到端序列到序列模型，使用LSTMs
模型：S2VT,学习直接将序列帧映射成序列句子。使用一层LSTM编码视频帧序列成分布式向量表示。这层单一的LSTM对输入编码并解码，允许在编码和解码时分享权重。
这里写图片描述
①LSTM对帧逐一编码，帧由CNN输出。为模拟时间活动方面，计算连续帧对之间的光流。流图像通过CNN输出给LSTM作为输出
②读取了所有帧，模型就逐句生成句子
Translating videos to natural language using deep recurrent neural networks这篇论文
这里写图片描述
①CNN抽取视频帧特征
②平均池化产生单一特征向量代表整个视频
③使用LSTM作为序列编码器产生基于向量的描述
缺点：①完全忽略视频帧顺序
②未利用时间信息
Long-term recurrent convolutional networks for visual recognition and description论文
这里写图片描述
方法：①使用CRFs获得活动物体工具位置的语义元组
②使用一层LSTM将元组翻译成句子
缺点：仅用于有限域

方法：①使用融合时空运动特征的3D回旋网络
②引入attention机制
Unsupervised learning of video representations using LSTMs论文
方法：从先前的帧编码预测未来帧序列
相似于Sequence to sequence learning with neural networks论文
方法：使用一个LSTM编码输入文本成固定表示，另一个LSTM解码成不同语言

本篇详细方法：
1.LSTMs for sequence modeling
在编码阶段，给一个输入序列X（1,2,…n）,LSTM计算一个隐藏状态序列（h1,h2,…hn）
解码阶段，给定输入序列X的输出序列Y定义分布为p(Y|X)
2.序列到序列视频到文本
其他方法：第一个LSTM将输入序列编码成一个固定长度向量，第二个LSTM将向量映射成序列输出。
本篇方法：一个单一的LSTM进行编码解码。
①在前几时间步里，首层LSTM获得序列帧，进行编码，二层LSTM获得隐藏表示ht联结成空的输入句子，然后编码
②当视频帧结束后，第二层LSTM会嵌入一个句子开始（BOS）标签，提示开始编码现有的隐藏表示为句子序列
3.视频和文本表示
（1）RGB frames:使用CNN输入图片提供输出为LSTMs的输入。输入视频帧为256256，裁剪为227227
本篇还移除了原始的最后一层全连接分类层，学习新的特征线性嵌入成一个500维空间。这个低维特征构成到第一层LSTM的输入
（2）Optical Flow:
①抽取经典变分光流特征
②创造流图像
③计算流强度并作为第三频道增加到流图像
④使用CNN初始化在UCF101视频集上的权重来将光流图像分类为101个活动类别。CNN的fc6层活性被嵌入到一个低于500维空间里并作为LSTM的输入。
在组合模型中，使用浅融合技术来组合流和RGB特征。
（3）文本输入
目标输出单词序列使用one-hot向量解码表示。
①通过应用线性变换嵌入单词成低于500的维空间成输入数据，然后通过反向传播学习参数。
②嵌入的单词向量连接第一层LSTM的输出ht来构成第二层LSTM的输入。
③对于LSTM输出应用softmax成完整的词汇