无卷积参考图像分割——ReSTR: Convolution-free Referring Image Segmentation Using Transformers

本文介绍了一种名为ReSTR的无卷积模型,利用Transformer处理参考图像分割,解决传统方法在捕捉语言表达中的实体依赖和模态交互上的问题。ReSTR通过Transformer编码器提取特征,自注意力编码器融合两种模态,实现在多个公共基准上的先进性能。

0.摘要

        参考图像分割是一项高级的语义分割任务,其中目标不是预定义的类别,而是通过自然语言进行描述。现有的大多数方法依赖于卷积神经网络,但是卷积神经网络在捕捉语言表达中实体之间的长距离依赖关系方面存在困难,并且对于建模两种不同模态之间的相互作用不够灵活。为了解决这些问题,我们提出了一种使用Transformer进行参考图像分割的第一个无卷积模型,名为ReSTR。由于ReSTR通过Transformer编码器提取了两种模态的特征,因此可以捕捉到每个模态内部实体之间的长距离依赖关系。此外,ReSTR通过自注意力编码器融合了两种模态的特征,从而在融合过程中实现了灵活和自适应的两种模态之间的交互。融合后的特征被馈送到分割模块中,根据手头的图像和语言表达自适应地工作。ReSTR在所有公共基准测试中进行了评估和比较,并且优于所有现有模型。

1.引言

        在最近几年中,语义分割在效果和效率方面取得了显著进展[4, 5, 15, 28, 33, 51, 52]。然而,将其应用于现实世界的下游任务仍然受限。由于该任务仅设计用于处理预定义的类别集合(例如“汽车”,“人”),语义分割模型很难处理未定义的类别和用户感兴趣的特定实体(例如“一辆红色法拉利”,“戴着蓝色帽子的男人”)。

        指代图像分割[12]研究旨在通过对给定的自然语言表达作为查询的图像区域进行分割,从而解决了上述限制。由于该任务不再受到预定义类别的限制,它可以实现各种应用,例如人机交互和交互式照片编辑。然而,指代图像分割比语义分割更具挑战性,因为它要求理解语言表达中表达的个体实体及其关系(例如“一辆在建筑物旁边的出租车后面的汽车”),并在分割过程中充分利用这种结构化和关联信息。因此,该任务的模型应能够捕捉两种模态中语义实体之间的相互作用,并对两种不同模态进行联合推理。

       &n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值