论文阅读 | GroupViT: Semantic Segmentation Emerges from Text Supervision

原创

已于 2023-02-28 09:12:35 修改 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #深度学习 #计算机视觉

于 2023-02-23 13:30:52 首次发布

GroupViT是一种基于Transformer的语义分割方法，受CLIP启发，利用文本-图像对进行无监督学习。它通过结合图像patch和类别patch，使用Gumbel-Softmax进行硬分配，实现像素级别的语义理解。实验表明，这种方法在无标签数据上表现优秀，且能处理未见过的类别。

前言：CLIP工作拓展-利用文本-图像对的信息进行图像语义分割（CVPR2022）
论文：【here】
代码：【here】

GroupViT: Semantic Segmentation Emerges from Text Supervision

引言

传统分割方法采用自底而上的架构，深度学习方法是端到端的，自顶而下的为每个像素分配标签：
缺点有：标记数据繁琐，以及不能拓展到标签以外的类别
受到如今一些采用zero-shot方式取得成功方法的启发，这样可以针对下游任务微调模型，还可以拓展到没有出现过的类别
因此我们提出了一种方法,groupvit

方法

pipeline如下
在这里插入图片描述

首先是将图像打成16 * 16的小patch一共196个patch送入网络，和vision transformer是一样的，但是加了64个可学习的patch与图像patch合并concat起来送入网络，然后进行transformer，过6层transformer后，进行group block
然后是group_block的设计
原本concat起来的两种patch，196 * 384图像patch 和64 * 384的类别patch进行transformer，通过一个attention 196 * 64 ，可以将原本的图像不同patch的信心合并到不同的类别patch中，因此就实现了grou

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

btee

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

论文阅读-GroupViT：Semantic Segmentation Emerges from Text Supervision（语义分割CVPR2022）

一位不是很硕的鉴伪方向硕士

10-31

2423

GroupViT 的核心思想是利用了深度学习之前无监督分割的 grouping 思想。当时的做法大概是在确定某个中心点之后，不断向外发散，将接近的点都分到一个 group 中，最终发散完毕，得到分割结果。在 GroupViT 中的 grouping 是将 ViT 中的图像块 token进行分配，分配到不同的语义类别 token 上。

GroupViT 学习笔记

jacke121的专栏

04-13

5008

GroupViT 架构 GroupViT 包含按阶段分组的 Transformer 层的分层结构，每个阶段会处理逐渐放大的视觉片段。右侧的图像显示了在不同分组阶段要处理的视觉片段。在初期阶段模型将像素分组为局部对象，例如大象的鼻子和腿。在更高的阶段进一步将它们合并成整体，例如整个大象和背景森林。每个分组阶段都以一个分组块结束，该块会计算学习到的组标记和片段（图像）标记之间的相似度。相似度高的组会分配给同一组的段标记并合并在一起，并做进入下一个分组阶段的新段标记。 GitHub - NVlabs/Gr

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

优快云-Ada助手 2023.02.24
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

优快云-Ada助手 2023.02.24
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。