谢摩尔-优快云博客

原创《Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach》论文解读

本文思想旨在利用视觉prompt用于多尺度transformer decoder以促进准确的密集预测。

2025-05-05 20:41:46 880

原创《Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter》论文解读

*Augmented Prompts：**提供更全面和详细的兴趣对象描述可以带来更好的定位。在这种直觉的基础上，除了类令牌之外，本文还加入了相应的副词和形容词，这些副词和形容词提供了对象更详细的属性。将类名和副词或形容词的交叉注意图融合，得到分词得分图。**Class Token Re-weighting：**为类令牌分配更高的权重，我们突出了目标对象，同时抑制了背景，以获得更好的分割结果。所以考虑将不同交叉注意力层进行加权融合（尺度不同使用插值）本文观察到，不同的交叉注意层具有捕获语义信息的互补能力。

2025-04-29 19:53:24 1052

原创《Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation》论文解读

最后发现简单的White foreground + black background叠加三层就能最优（这也是问题二中方法1将掩码转RGB的方法）本文针对每个问题都提出若干解决方案并比较最后建立DiffewS。其中KV为查询和支持concat。使用CLIP的img编码并扁平化。

2025-04-29 16:21:15 1163

原创《Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model》论文解读

此步是为了充分使用novel的support samples中的信息。具体做法为先从novel对应数据集中随机采样。XnlocalYnlocalFcropXncYncXnlocalYnlocalFcropXncYnc随后挑出当前所用base样本XbX_bXb中的一个角，再从上述XnlocalXnlocal中挑出对应角LbLnlocalFpairFcornerXbF。

2025-04-24 10:59:34 907

原创《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》论文解读

首先让我们明确一下VAR和AR的区别传统的AR：使用参考自然语言AR的设计，使用next-image-token prediction的设计，每个token代表图像的一部分首先将原始图像经encoder获取特征：f=E(im)f = \mathcal{E}(im)f=E(im)随后查codebook获取嵌入词向量索引q(i,j)=(arg⁡min⁡v∈[V]∥lookup(Z,v)−f(i,j)∥2)∈[V]q^{(i,j)} = \left( \underset{v \in [V]}{\arg\min}

2025-04-23 12:01:35 657

原创《Generalized Few-shot Semantic Segmentation》论文解读

《Generalized Few-shot Semantic Segmentation》背景及技术解读

2025-04-21 23:36:44 942

原创 Video Instance Segmentation：论文解读

本文的主要贡献包括以下几点:首次提出了’视频实例分割’这一新的计算机视觉任务,该任务要求同时检测、分割和追踪视频帧中的目标实例。创建了第一个大规模的’YouTube-VIS’数据集,包含2,883个高分辨率的YouTube视频, 40类标注和131,000个实例掩码。这个数据集可以用于视频实例分割以及其他视觉理解任务。提出了一种新的算法’MaskTrack R-CNN’,该算法在Mask R-CNN的基础上增加了一个跟踪分支,可以实现视频中目标实例的联合检测、分割和跟踪。两阶段物体检测和实例分割算法。

2024-11-05 10:38:49 872

原创 Attention Is All You Need论文解读

QKT)V多头注意力:Transformer中的自注意力机制被扩展为多个注意力头，每个头可以学习不同的注意权重，以更好地捕捉不同类型的关系。多头注意力允许模型并行处理不同的信息子空间。MultiHead(Q,K,V)=Concat(head1,...,headh)WOwhere headi=Attention(QWiQ,KWiK,VWiV)\begin{aligned}\mathrm{MultiHead}(Q,K,V)&=\mathrm{Concat}(\mathrm{head}_{1},...,

2024-10-29 22:51:41 1893

原创 gMLP:Pay Attention to MLPs

延续的主题思想，网络主题结构只有MLP每个block只有一个skip-connection每个block先channel_mlp,再token_mlp,最后再channel_mlp，同时为中间的token_mlp设计了一个专属的门控机制。

2024-10-23 22:20:45 775

原创 MLP-Mixer: An all-MLP Architecture for Vision

返璞归真，只用MLP（token-mixing MLP和channel-mixing MLP）

2024-10-23 22:15:24 965

原创 MSVLF:Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

本地token只允许关注全局token及其在窗口大小范围内的本。个全局token，允许这些全局token关注所有token，作为。

2024-10-23 22:12:20 898

原创 CFFM+:Learning Local and Global Temporal Contexts for Video Semantic Segmentation, TPAMI 2022

和之前的所介绍的略有不同，即在之前只涉及局部时间上下文的基础上旨在加上全局时间上下文。

2024-10-17 22:55:44 728

原创 Co-Scale & Conv-Attentional：Co-Scale Conv-Attentional Image Transformers

第一个问题是使用双线性插值来进行上采样和下采样来让各个尺度的特征图对齐，第二个问题作者构思了三种方法，一种是各个尺度的特征图直接进行attention+FFN,然后聚合，第二种是各个特征图降采样或者升采样到其他所有尺度与其他尺度特征图进行cross-attention，所谓cross-attention文中作者给出的解释是q用本尺度的，k,v使其他尺度的，然后进行attention.第三种方法是各自attention后将所有的特征图放缩后相加，再执行聚合。改变计算顺序从而降低计算时间复杂度：即。

2024-10-16 14:29:24 1844

原创 MRCFA：Mining Relations among Cross-Frame Affinities for Video Semantic Segmentation, ECCV 2022

深层特征亲和力包含更多信息，但是粗糙；浅层特征亲和力包含更多细粒度信息，但语义信息比较少，所以进行多尺度亲和聚合。2.使用 SegFormer的方法通过合并中间层特征生成。3. 最后将前面所得结果整合得到最终结果。首先经过训练良好的Encod。接下来，进行SAR计算过程。er得到其对应的中间特征。

2024-10-15 22:34:18 841

原创 CFFM:Coarse-to-Fine Feature Mining for Video Semantic Segmentation, CVPR 2022

5. 用目标帧生成Q，上述得到的。

2024-10-15 22:21:43 1882

xieguohuan的博客