
vqa
smile909
这个作者很懒,什么都没留下…
展开
-
(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs
作者:Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei (发表于CVPR2017)(Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生,Jonathan Krause已经毕业,就职于Google Brain)这篇文章提出了一种原创 2017-08-23 20:53:32 · 943 阅读 · 0 评论 -
(reading)Revisiting Visual Question Answering Baselines
Revisiting Visual Question Answering Baselines阅读后收获:对于VQA,使用MLP model,将I-Q-A作为输入做caption效果要好于以I-A作为输入,将I-A作为输入做caption效果要好于以Q-A作为输入,将Q-A作为输入做caption效果要好于以A作为输入,但是仅仅以A作为输入,在Visual7W telling task中就可以达到50原创 2017-08-23 20:23:56 · 433 阅读 · 0 评论 -
(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions
作者:AK大神和李飞飞大神 发表于2015年的CVPR文章概述:这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系,并将对齐好的图像区域和语句片段作为训练数据,用来训练提出的另一个多模态的RNN模型,该模型通过输入测试图像最终生成该图像的文本描述。过程:**视觉语义对齐模型通过构造一个结构化的目标函数,利用多模态嵌入空间来对齐视觉区域和语句片段。**1. 首先利用一个预训练原创 2017-08-23 20:37:52 · 704 阅读 · 0 评论