第四十七周学习笔记
论文整理
本周的主要任务是整理之前读到的CVPR2019论文,整理的结果在excel里
论文阅读概述
- Point Novel Objects in Image Captioning,本文通过引入pointing mechanism解决novel Image caption的问题,具体的做法是通过soft的方式,在copy和generate之间进行选择,引入sentence-level coverage loss来强制句子包含更多的object,在COCO上达到了SoTA的F1 60.9%
- Engaging Image Captioning via Personality,本文提出了同时理解图片内容并生成有吸引力的caption的模型,提出了新的数据集PERSONALITY-CAPTIONS,提出了新的retrieval模型,TranResNet
- Good News,Everyone! Context driven entity-aware captioning for news images,本文以interpretation为目的进行image captioning,提出了新的数据集GoodNews,是新闻上的image captioning 数据集,image caption的输入由图像和文章共同组成,采用两个步骤,生成template然后补充命名实体的方法
- Adversarial Semantic Alignment for Improved Image Captions,本文的OOC的提出表明了模型在一定程度上还是仅仅背诵训练集,对于一些特例情况,几乎无法识别,仅仅是按照通常的表述将其表达出来
image captioning
show and tell 和 fc 、fc scst的对比
描述上,fc模型的描述也更加合理
- show tell
- fc
根据训练模型(fc scst)的结果,可以发现
-
image captioning模型其实连图片中目标有几个都无法描述正确
-
co-occurance对image caption的结果有很大的影响
-
对未见场景的理解能力非常差
本周小结
论文阅读少读一篇
下周目标
论文阅读至少五篇