整体框架
论文作者为RIS(Referring Image Segmentation)和REC(Referring Image Segmentation)引入了一个新的架构,称为PolyFormer。此模型不是直接预测分割掩码,而是一次产生边界框的角点和所预测实列的多边形顶点。是一种seq2seq的模型。
下图为PloyFormer的整体框架:
首先使用视觉编码器和文本编码器分别提取图像和文本特征,然后将其投影到共享嵌入空间中。接下来,将图像和文本特征连接起来,并将它们输入多模态transformer编码器。最后,基于回归的transformer解码器利用编码特征,以自回归的方式输出连续浮点边界框角点和多边形顶点。对应的分割掩码即是多边形所包围的区域。
如何表示多边形序列和边界框角点
首先由一个或多个(可能被遮挡)多边形来描述所引用的对象,将多边形参数化为二维顶点{(xi, yi)}的序列K i=1, (xi, yi)∈r2,按顺时针顺序。选择最接近图像左上角的顶点作为序列的起点,如下图:
为了表示多个多边形,在两个多边形之间引入分隔符<SEP>。使用<BOS>和<EOS>指示序列的开始和结束。
边界框的坐标表示为左上角坐标和右下角坐标,边界框和多个多边形的坐标的连接方式如下:
前两个坐标

PolyFormer是一种用于指代图像分割的新模型,采用序列到序列的方法生成边界框角点和多边形顶点。它结合了Swin Transformer的图像编码器、BERT的文本编码器和多模态Transformer编码器,通过基于回归的Transformer解码器进行预测。模型解决了多边形表示的非唯一性,通过损失函数优化预测效果,并在推理时生成分割掩码。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



