Sequence to Sequence – Video to Text论文
出现问题:1.现实世界视频复杂(物件场景行为属性多样化,并且难以确定主要内容正确用文本描述事件) 2.对视频描述需要对时间结构敏感以及允许可变长度的输入(视频帧)输出(文本) 方法:端到端序列到序列模型,使用LSTMs 模型:S2VT,学习直接将序列帧映射成序列句子 模型(http://img.blog.youkuaiyun.com/20170422135907
原创
2018-09-28 15:25:30 ·
1750 阅读 ·
1 评论