摘要
图像分割通常通过为固定的对象类别集训练模型来解决。在后续引入更多类别或更复杂的查询时,成本较高,因为这需要在包含这些表达的数据集上重新训练模型。本文提出了一种系统,能够在测试时基于任意提示生成图像分割结果。提示可以是文本或图像。这种方法使我们能够为三种常见的分割任务创建一个统一的模型(只需训练一次),这些任务分别面临不同的挑战:指代表达式分割、零样本分割和单样本分割。我们以CLIP模型为骨干网络,并通过基于Transformer的解码器扩展其功能,以实现密集预测。在扩展版的PhraseCut数据集上训练后,我们的系统能够基于自由文本提示或表达查询的附加图像生成图像的二值分割图。我们详细分析了基于图像的提示的不同变体。这种新颖的混合输入方式不仅能够动态适应上述三种分割任务,还能适应任何可以基于文本或图像查询制定的二值分割任务。最后,我们发现我们的系统能够很好地适应涉及功能或属性的广义查询。代码可在https://eckerlab.org/code/clipseg获取。
1 引言
泛化到未见数据的能力是人工智能广泛应用中一个基本且重要的问题。例如,家庭机器人必须理解用户的提示,这可能涉及未见过的对象类型或不常见的对象表达方式。虽然人类在这方面表现出色,但这种推理形式对计算机视觉系统来说具有挑战性。
图像