(七十):Learning to Collocate Neural Modules for Image Captioning

  • 出处:2019 IEEE/CVF International Conference on Computer Vision (ICCV)
  • 代码:
  • 题目:学习配置用于图像字幕的神经模块
  • 主要内容:我们提出模仿人类的归纳偏误——句子由结构模式组成——来实现意象字幕。特别地,我们提出了一种新的模块化网络方法:学习配置神经模块(CNM),它可以通过将内容填充到配置的模块中来生成标题
    存在问题:尽管最近在视觉表征学习[16,42]和语言建模[18,50]方面的进展显示了建模各自模式的多样性的强大力量,但在它们之间建立一个稳健的跨模态连接仍远未解决。事实上,图像字幕并不是唯一的模型,可以很容易地利用数据集偏见字幕即使没有看图像[44],几乎所有现有的视觉推理任务模型,如视觉Q&A[23,44,48],都被发现模式崩溃到特定的数据集特性,并未能再现我们世界的多样性任务越复杂,崩溃就越严重。存在只根据共现概率预测结果。
    本文改进:
    根据人类对语言搭配的归纳,提出了一种新的神经模块化方法CNM,它可以学习一种动态结构,并使用了一个多头自注意模块来编码对象间特征的关系。
    其中解码器设计了一个模块控制器,它将这些模块特征软融合成一个单一的特征,以便后续RNN进一步进行语言解码。通过观察更多的视觉线索,生成的标题通常与图像更相关

Abstract

我们不是从零开始,逐字逐句地说话;我们的大脑会迅速构建一个模式,比如在某个地方做某事,然后填充细节描述。
为了呈现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值