
image caption
完美妖姬
这个作者很懒,什么都没留下…
展开
-
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
加拿大高级研究所 Ryan kiros, Ruslan Salakhutdinov, Richard S. Zemel 2014 NIPS deep learning workshop1. 主要思想 学习了一个图片-句子 embedding space,以及一个解码这个空间的语言模型2. embedding space如下图结构所示CNN模型学习图片表示,LSTM的最原创 2018-01-24 23:57:06 · 2998 阅读 · 0 评论 -
Review networks for caption generation
注明:欢迎阅读,讨论。转载及参考请注明出处。谢谢~论文连接:https://pdfs.semanticscholar.org/8736/3aa042cc23bfae3c865d9e8c280f5fe67de7.pdf主要思想:attention机制每次只关注到局部,没有考虑全局因素对预测的影响。该文将feature map作为图片的全局信息,然后通过LSTM单元获得一个比feature map更能原创 2018-01-18 12:50:23 · 706 阅读 · 0 评论