zegformer

最新推荐文章于 2026-01-04 17:11:52 发布

原创

最新推荐文章于 2026-01-04 17:11:52 发布 · 575 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #计算机视觉 #人工智能

CVPR2022

进行Zero-shot语义分割的ZegFormer：首先将N个query（N取100，一般小于语义数量）和backbone得到的特征提供给transformer decoder，生成N个segment embedding。然后将每个segment embedding分别再经过一层全连接改变通道数得到语义嵌入，以及通过mlp得到mask embedding。Mask embedding与pixel decoder的输出相乘得到不知道对应类别的二进制掩码，而语义嵌入则通过用clip得到的文本嵌入进行分类。

训练阶段，只使用所看到的类来训练分类头，在生成的二进制掩码mask和语义嵌入经过文本嵌入作为分类器得到的分类logits，使用bipartite matching，损失和二分图匹配的cost与mask former一样。

Inference阶段，通过二进制掩码mask原图（或者crop原图，论文消融分析得到mask同时crop原图效果最好），得到只包含对应语义的图，将其输入clip预训练好的image encoder得到图片embedding，和训练阶段类似使用文本嵌入作为分类器得到预测语义类。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。