图像描述现在存在问题:生成的描述很呆板、对图像里的物体描述的不够具体,
用cnn提取图像特征,结合CNN和RNN产生一个端到端的图像生成系统,用词向量把单词长度不同的句子变成固定维度的向量。提出一个注意力机制通过可视化展示模型是如何让系统注意到图像中的明显的物体的。在三个数据及上做了测试,得到最佳的分数
图像生成不仅要有能力去识别图像中的物体,还要有能力知道图像里物体与物体之间的关系,如今,机器翻译使用RNN的方法达到最佳的效果。图像生成用CNN和RNN结合得到的向量去表征这张图片然后生成图像描述,在复杂的图像中,呆板的和不清楚的描述仍然存在。
人类的视觉系统是存在注意力的,这种注意力机制在我们看、听、和感受的时候会过滤掉我们不关注的信息。
主要贡献:
1、改进CNN图像特征提取方法提取更多的特征,例如说颜色、大小、地理位置等信息让生成的描述更加生动和精确。
2、提出一个不同的LSTM去结合注意力机制,注意力机制对物体的描述和人类对图像的关注点很有帮助,
3、在Flickr8k,Flickr30K和MSCOCO数据集上得到BLEU-n分数,
我们想知道哪些特征需要注意,哪些特征需要忽略。我们将高级的信息加到CNN-RNN框架。
我们不只是提取物体的特征,而且选择了高级的表达。我们在训练中用256个维度表示一个单词。
我们用vggnet提取图像信息。
视觉注意力:首先会注意到图像的里的颜色、大小、轮廓。第二个阶段我们会在大脑中构建我们想象的模型并且忽略掉其他信息。最后一个阶段展示了注意力机制是如何产生效果的。