(七十):Learning to Collocate Neural Modules for Image Captioning
- 出处:2019 IEEE/CVF International Conference on Computer Vision (ICCV)
- 代码:
- 题目:学习配置用于图像字幕的神经模块
- 主要内容:我们提出模仿人类的归纳偏误——句子由结构模式组成——来实现意象字幕。特别地,我们提出了一种新的模块化网络方法:学习配置神经模块(CNM),它可以通过将内容填充到配置的模块中来生成标题。
存在问题:尽管最近在视觉表征学习[16,42]和语言建模[18,50]方面的进展显示了建模各自模式的多样性的强大力量,但在它们之间建立一个稳健的跨模态连接仍远未解决。事实上,图像字幕并不是唯一的模型,可以很容易地利用数据集偏见字幕即使没有看图像[44],几乎所有现有的视觉推理任务模型,如视觉Q&A[23,44,48],都被发现模式崩溃到特定的数据集特性,并未能再现我们世界的多样性任务越复杂,崩溃就越严重。存在只根据共现概率预测结果。
本文改进:
根据人类对语言搭配的归纳,提出了一种新的神经模块化方法CNM,它可以学习一种动态结构,并使用了一个多头自注意模块来编码对象间特征的关系。
其中解码器设计了一个模块控制器,它将这些模块特征软融合成一个单一的特征,以便后续RNN进一步进行语言解码。通过观察更多的视觉线索,生成的标题通常与图像更相关。
Abstract
我们不是从零开始,逐字逐句地说话;我们的大脑会迅速构建一个模式,比如在某个地方做某事,然后填充细节描述。
为了呈现