ICCV 2017 | 语言卷积神经网络应用于图文生成的经验学习

本文提出一种基于语言卷积神经网络的图像描述生成模型,通过融合历史单词信息,有效解决长文本层次结构和依存性建模问题,取得state-of-the-art成果。模型包括图像特征提取CNN_I、自然语言建模CNN_L、多模态融合层M及单词预测递归网络层。实验结果表明,该模型优于GoogleNICv2和Attributes-CNN+RNN等模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文基于语言卷积神经网络,融合之前时刻的所有单词,从而保存了更详尽的历史信息,使得结果更加准确。不同于常规语言模型例如LSTM通过逐个单词递推的方式来生成caption,本模型对历史单词进行建模,解决了长文本层次结构和依存性建模的问题,取得了当时的state-of-the-art。

论文地址:
https://arxiv.org/abs/1612.07086

引言

传统的encoder-decoder模型,虽然通过LSTM的门机制可以一定程度上减轻梯度消失问题,但无法避免的是,当输入序列很长时,会丢失大量的历史信息。尤其是在中文领域,模型的性能往往会受到影响。

数据集

本文基于MS-COCO和Flicker30k数据集,分别包含123,287和31,783张图片。为了提高训练数据的质量,将数据集中单词全部小写并用UNK替换出现次数少于5次的单词,另外,训练集中的Ground Truth Captions截断为最多包含16个单词。
###模型
该模型主要由四部分组成:用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,融合视觉和文本特征的的多模态层 M,以及单词预测的递归网络层。 CNN_I层利用16层的VGGNet提取图片特征,并embedding成需要的尺寸;CNN_L对历史预测的所有单词进行建模得到整体表达;M层将图像和语言信息进行融合后送入递归神经网络预测下一个单词。

CNN_L Module依托其天然的整体理解能力,将历史预测的单词构建一个层级表征,从而实现远距离依存性的提取。

将历史预测单词融合

逐层进行卷积操作,提取高级特征。此处限制了历史预测单词的数量为16个,对于不足16个的情况进行padding。为了体现单词间的时序性,与常规CNN不同的是,不进行池化操作。另外,根据实验发现,CNN层数越深效果越好。

Multimodal Fusion Layer

多模态层即对图像和语言信息进行融合。

Recurrent Networks Layer

递归网络层采用Recurrent Highway Networks结构,便于反向传播梯度计算。

实验结果

对比Google NICv2和Attributes-CNN+RNN等模型,可以看出本文模型取得了较大突破,优于当时大部分模型,而且生成的caption具有很好的流畅性。

结论

本文利用语言卷积模型,全面考虑了历史信息的包含,提升了结果的准确性,也使得模型更易于训练。但是由于历史信息的持续影响,使得图像信息中的实际物体信息反而被忽视,导致了句中名词和属性词的误判。



在这里插入图片描述
扫码识别关注,获取更多论文解读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值