内容超详细,介绍了RNN以及LSTM
https://blog.youkuaiyun.com/zhaojc1995/article/details/80572098
补充:Word2Vec
Word2Vec
通常字符串难以被机器理解,需要此工具来转换为编码
步骤
1.建立字典,每个词生成one-hot编码
有多少词,就建立多长的字典,每个单词对应的位置为1,其他都为0
2.训练数据集构建
根据单词的临近关系建立一个映射(可以用一个滑动窗口来提取相近关系)
3.简单神经网络
简易三层神经网络
各层神经元个数:
N-m-N
学的是词语映射到临近层的映射
4.生成最终Vect
训练model特征提取
每个one-hot对应一个向量
生成最终look up word table
特点
1.利用上下文关系进行学习,上下文相近,生成的向量会接近
2.具有类比特性
king-queen+female=male
3.字符到数据,方便学习处理
CNN+RNN
相同点
1.传统神经网络扩展;
2.前向计算产生结果,反向计算模型更新;
3.每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接;
不同点
1.CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算;
2.RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出;
3.CNN高级100+深度,RNN深度有限(五层以下)
组合意义
大量信息同时具有时间空间特性:视频等等。
组合方式
1.CNN特征提取,用于RNN语句生成–图片标注
2.RNN特征提取用于CNN内容分类–视频分类
3. CNN特征用于对话–图片问答
组合方式实现
1.特征提取:LSTM输出,FC层输出
2.特征合并:Concatenate层;Attention相乘
3.结果输出:连续语句输出LSTM,组合分析回归DNN
图片标注
问题描述:拥有大量图片及标注信息,能够通过学习简历一个能够自动图片标注的模型
特征提取
全连接层特征用来描述原图片;
LSTM输入:word图片特征;输出下一word
特征融合
图片特征CNN全连接提取;
语言特征:Word2Vec
数据准备
图片CNN特征提取;
图片标注生成WOrd2Vec向量
生成训练数据:图片特征+第n单次向量:第n+1单次向量
模型训练
1.运用迁移学习,CNN特征,语句特征应用已有模型
2.模型的输出模型是LSTM,训练过程的参数设定:梯度上线,学习率调整
3.训练时间长
模型运行
1.CNN 特征提取
2.CNN特征+语句开头,单词逐个预测
视频行为识别
常用方法
CNN特征简单组合;
3D版本CNN;
RNN用于CNN特征融合;
RNN用于,目标检测;
多种模型综合(比赛中为了产生最好的结果,多采用多模型ENSEMBLE形式)
图片/视频问答
依旧按照语言问答流程解决
训练数据:问题+图片-答案
纯文字问答系统
1.背景故事特征生成(word embedding)
2.问题特征生成
3.背景,问题特征融合
4.标准答案回归
1万+

被折叠的 条评论
为什么被折叠?



