前言:CLIP工作拓展-利用文本-图像对的信息进行图像语义分割(CVPR2022)
论文:【here】
代码:【here】
GroupViT: Semantic Segmentation Emerges from Text Supervision
引言
传统分割方法采用自底而上的架构,深度学习方法是端到端的,自顶而下的为每个像素分配标签:
缺点有:标记数据繁琐,以及不能拓展到标签以外的类别
受到如今一些采用zero-shot方式取得成功方法的启发,这样可以针对下游任务微调模型,还可以拓展到没有出现过的类别
因此我们提出了一种方法,groupvit
方法
pipeline如下

首先是将图像打成16 * 16的小patch一共196个patch送入网络,和vision transformer是一样的,但是加了64个可学习的patch与图像patch合并concat起来送入网络,然后进行transformer,过6层transformer后,进行group block
然后是group_block的设计
原本concat起来的两种patch,196 * 384图像patch 和64 * 384的类别patch进行transformer,通过一个attention 196 * 64 ,可以将原本的图像不同patch的信心合并到不同的类别patch中,因此就实现了grou

GroupViT是一种基于Transformer的语义分割方法,受CLIP启发,利用文本-图像对进行无监督学习。它通过结合图像patch和类别patch,使用Gumbel-Softmax进行硬分配,实现像素级别的语义理解。实验表明,这种方法在无标签数据上表现优秀,且能处理未见过的类别。
最低0.47元/天 解锁文章
2423





