论文地址:https://arxiv.org/pdf/2302.07387v2.pdf
代码地址:https://github.com/amazon-science/polygon-transformer
1.摘要
在这项工作中,不是直接预测像素级分割模板,而是将参考图像分割描述为连续的多边形生成,然后将预测的多边形转换为分割模板。这是由一个新的序列到序列:多边形转换器-PolyFormer实现的,该框架将一系列图像面片和文本查询标记作为输入,并自动回归一系列多边形顶点。为了更准确地进行几何定位,我们提出了一个基于回归的解码器,它直接预测精确的浮点坐标,没有任何的坐标化误差。在实验中,PolyFormer的性能明显优于现有技术,例如,在具有挑战的RefCOCO+和RefCOCOg数据集上,该算法也表现出了很强的泛化能力,例如,在Ref-DAVIS17数据集上获得了具有竞争力的61.5%的J&F。
2.介绍
参考图像分割结合了视觉语言理解和实例分割,目的是给定自然语言查询的对象的分割掩码。它将传统的对象分割从固定数量的预定义类别推广到用自由语言描述的任何概念,这需要对图像和语言语义有更深的理解。传统的流水线首先从图像和文本中提取特征,然后将多模态特征融合在一起来预测掩膜。
提出了一种序列-序列框架,并提出了一种用于参考图像分割的多边形变换,如图1所示,它以一系列图像块和文本查询标记作为输入,并自动回归地输出一系列多边形顶点,由于每个顶点预测都以所有先前预测的顶点为条件,因此输出预测不再彼此独立。Seq2seq框架在其输入和输出格式上都是灵活的,只要它们都可以被表示为可变长度的序列。
PolyFormer中任意浮点坐标的特征嵌入是通过其相邻索引嵌入的双线性内插得到的,这与通常的做法不同,在这种做法中,坐标要素是从具有固定数量的离散坐

本文介绍了一种新的模型PolyFormer,它通过序列到序列预测,以连续多边形生成代替像素级分割,显著提高了参考图像分割的精度和泛化能力。特别地,它提出了一种基于回归的解码器,避免了坐标量化误差。
最低0.47元/天 解锁文章
1690

被折叠的 条评论
为什么被折叠?



