目录 CNN+RNN 两种网络的相同点 两种网络的不同点 组合意义 结合方式 结合方式的实现 图片标注 基本思路 模型设计 整体结构 特征提取 特征融合 数据准备 模型训练 视频行为识别 常用方法 RNN用于CNN特征融合 RNN用于CNN特征筛选+融合 RNN用于目标检测 视频/图片问答 问题定义 问答的意义 方法流程 CNN+RNN 两种网络的相同点 两种网络的不同点 组合意义 大量信息同时具有时间空间特性:视频,图 文结合,真实的场景对话。 带有图像的对话,文本表达更具体。 视频相对图片描述的内容更完整。 结合方式 CNN 特征提取,用于RNN语句生成→图片标注 RNN特征提取用于CNN内容分类→视频分类 CNN特征提取用于对话问答→图片问答 结合方式的实现 图片标注 基本思路 CNN网络中全连接层特征描述图片,特 征与LSTM输入结合 模型设计 整体结构