
视觉语义
文章平均质量分 80
迷川浩浩_ZJU
luohao.site
展开
-
基于Visual attention的图片主题生成
引言Attention model 在序列end to end问题上广泛应用,结合RNN、LSTM、GRU等常用递归神经网络可以取得很好的效果;在计算机视觉领域也有非常广泛的利用,因为序列因素的存在,所以通常在图文转换或者视频描述等应用中出现。Visual attention model的意义在引入Attention(注意力)之前,图像识别或语言翻译都是直接把完整的图像或语句直接塞到一个输入,然后原创 2016-11-07 19:47:26 · 7425 阅读 · 3 评论 -
一种机器翻译的评价准则——Bleu
1. 引言在牵涉到语句生成尤其是机器翻译的应用领域,如何衡量生成语句与参考语句之间的相似性是一个很重要的问题,而在2002年Kishore Papineni et al.就提出了一个经典的衡量标准Bleu,如今这篇文献已经引用量过万,因此是NLP领域必读文章之一。2. 论文中使用的例子论文中给出了四个例子来辅助解释算法,每个例子都有待评价(Candidate)语句和标准参考(Reference)语句原创 2016-11-10 14:41:38 · 15714 阅读 · 2 评论 -
Attention model
引言Attention model(AM)最先在计算机视觉中被应用于图片识别的问题,之后在自然语言处理(NLP)和计算机视觉(CV)中经常结合递归神经网络结构RNN、GRU、LSTM等深度学习算法,被称之为Recurrent Attention Model(RAM),其核心就是一个Encoder-Decoder的过程。传统的Encoder-Decoder模型例如RNN在做文本翻译是把一个输入语句(x原创 2016-11-08 16:14:59 · 15966 阅读 · 1 评论 -
基于attention的video描述
引言这片博文内容主要基于2015年Y Li的论文Video Description Generation Incorporating Spatio-Temporal Features and a Soft-Attention Mechanism,本文将soft-attention机制引入到视频描述中。视频特征提取采用一个用动作识别视频集训练的3-D CNN网络,之后利用soft-attention机原创 2016-11-07 19:26:24 · 5524 阅读 · 1 评论 -
【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation
摘要翻译这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧,我们借助视频的这个特点来表达视频的高层特征(备注,视频和图像的高层特征通常就是指understanding层面)。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器,此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)原创 2017-03-13 16:21:45 · 2756 阅读 · 1 评论 -
【论文笔记】Unsupervised Learning of Video Representations using LSTMs
这篇文章是深度学习应用在视频分析领域的经典文章,也是Encoder-Decoder模型的经典文章,作者是多伦多大学深度学习开山鼻祖Hinton教授的徒子徒孙们,引用量非常高,是视频分析领域的必读文章。摘要翻译我们使用长短时记忆(Long Short Term Memory, LSTM)网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个L原创 2017-03-26 21:21:41 · 9651 阅读 · 1 评论