LAVT: Language-Aware Vision Transformer forReferring Image Segmentation

Abstract

参考图像分割是一项基本的视觉语言任务,旨在从图像中分割出由自然语言表达所引用的对象。 这项任务背后的关键挑战之一是利用引用表达式来突出显示图像中的相关位置。解决这个问题的一个范例是利用一个强大的视觉语言(“跨模态”)解码器来融合从视觉编码器和语言编码器中独立提取的特征。 最近的方法通过利用Transformer作为跨模态解码器在这个范例中取得了显著的进步,同时Transformer在许多其他视觉语言任务中取得了压倒性的成功。在这项工作中,我们采用了一种不同的方法,表明可以通过在视觉变压器编码器网络的中间层中早期融合语言和视觉特征来实现更好的跨模态对齐。 通过在视觉特征编码阶段进行跨模态特征融合,我们可以利用Transformer编码器的相关建模能力来挖掘有用的多模态上下文。 这样,准确的分割结果很容易收获与轻量级掩模预测器。 我们的方法在RefCOCO、RefCOCO+和G-Refby上超越了以前最先进的方法。

Introduction

给定目标物体的图像和文本描述,参考图像分割旨在预测描绘该物体的pixel-wise mask。一种被广泛采用的模式是首先从不同的encoder网络中独立提取视觉和语言特征,然后用跨模态decoder将它们融合在一起进行预测。融合策略包括反复互动、跨模态注意、多模态图推理、语言结构引导的语境结构建模等。

LAVT:接将语言信息整合到视觉Transformer网络的中间层次的视觉特征中,在那里有益的视觉语言线索被共同利用。

传统的方法:跨模态的交互仅在特征编码后进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值