image caption领域方法综述(四)
image caption领域自从引入了深度学习以后发展十分迅速,通过2015年到2020年发表的论文,我将image caption领域的方法分为4类:基于注意力机制、基于对抗生产网络、基于强化学习以及基于密集描述,本篇参考了论文 图像描述技术综述[J]. 计算机科学, 2020, 47(12): 149-160.,这一篇介绍第四部分:基于密集描述。
四、基于密集描述
基于密集描述的图像描述方法就是将图像描述分解为多个图像区域描述,当描述一个物体时,可以看作目标识别,当描述很多物体或一幅图像时,就是图像描述。
1、《DenseCap: Fully convolutional localization networks for dense captioning》于2015年提出了一种全卷积网络结构,包括 CNN、密集定位层和 LSTM 语言层。该网络利用双线性 插值定位层的可导性,实现端到端式的训练,无需生成候选区域,只需进行一次优化和前馈计算就可以得到输出结果。(论文链接)
2、《Dense captioning with joint inference and visual context》提出一种基于推理和上下文融合的密集描述方法。推理机制依赖于区域的图像特征和预测描述,以便定位区域边界,从而解决因区域密集而产生的区域重叠问题。上下文融合机制将文本特征与图像特征相结合,提供更加丰富的语义描述。(论文链接)
3、《Dense relational captioning: Triple-stream networks for relationship-based captioning》基于密集描述提出一个多任务三流网络,该网络由区域生成网络和3个不同词性标签的循环单元组成,在 RPN 生成对应图像区域后, 不同的循环单元共同作用于单词的预测和生成。该方法在不同词性标签之间建立不同的语义关系,生成更加密集、信息量 更大的图像描述。(论文链接)
4、《Context and attribute grounded dense captioning》指出在密集描述中不同图像区域之间缺少语义关联,并基于此提出了多尺度特征融合模型和语义属性监督机制,使模型在生成更加人性化的描述句的同时,增强不同图像区域之间的相关性,保证了不同图像区域之间的上下文关系。密集描述可以依靠图像的全局信息结合多个区域生成具有上下文相关性的图像描述,但是由于密集描述是对图像的不同区域内容进行描述,因此当选框中的内容不是图像的主要内容时,会导致图像的整体描述出现偏差。(论文链接)