论文笔记:Dual-Level Collaborative Transformer for Image Captioning

本文解读了一篇论文,介绍了一种新型双层协同Transformer网络,旨在结合区域和grid特征的优势,通过位置约束交叉注意模块减少语义噪声。论文方法包括整合绝对和相对位置信息,以及使用几何对齐图优化特征交互。

前言

论文详情可以参照这篇,写得很好。

本小白这篇内容主要是对论文中的一些思想和图以及部分公式进行自己的解读。如有错误,请多多谅解。


论文思想

首先,根据论文第一作者在知乎所说(搜这篇论文名称可以看到),自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》(这篇论文的解析在这里)提出以来,image caption一直使用的是BUTD提供的Object Region特征,即第一步,先在VG上训练一个目标检测器,第二步,在COCO图片上以一定的置信度提取出图像上的目标框,第三步,将这些框中的特征作为后续(Image Captioning)模型的输入。

一般来说,为了更多覆盖全图的信息并照顾到目标比较少(甚至没有目标)的图片,这个检测的置信度会设的很低(0.2),也就是说基本上建议框都保留下来了,导致每张图片实际上有大量目标框。也有很多的冗余。

而2020CVPR《In Defense of Grid Features for Visual Question Answering》(IDGF)一文的作者发现,BUTD特征更好的原因主要是使用了VG的标注,从而给图片提供了更好的先验,通过对Detection head的改造,IDGF提取出来的grid特征在后续任务中的表现堪比甚至超过region特征。

于是作者开始思考两个特征的优缺点:

1、region特征是检测出来的目标,这些特征的语义层级相对较高,但它们有两个缺点,一是图像中非目标的区域会被忽视(如背景信息),二是大目标的小细节会被忽视。如下图所示

2、 grid特征就是Feature map,这个特征的语义层级相对较低,往往一堆网格在一起才能覆盖一个目标,但优点是它能覆盖整张图片,同时也包含了目标的细节信息。

两个特征各有优势,所以作者想把他们融合起来,这就是论文的主要思想。 


 论文方法

论文在摘要中写到,论文引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。具体地说,在DLCT中,首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源,以挖掘它们的内在属性,引入了一个综合关系注意模块(Comprehensive Relation Attention,CRA)来嵌入几何信息,此外还提出了一个位置约束交叉注意模块(Locality-Constrained Cross Attention,LC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值