多类别属性预测深度架构GlideNet

最新推荐文章于 2025-11-15 15:45:59 发布

原创

最新推荐文章于 2025-11-15 15:45:59 发布 · 1.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #cv #图像识别

GlideNet是解决多类别属性预测的新深度架构，通过全局、局部和实例特征提取器处理大量属性、类别依赖性、场景上下文和低像素对象属性预测。采用通知卷积和自学习类别嵌入，结合全局-局部内在块，实现更准确的属性预测。

将属性（如颜色、形状、状态、动作）附加到对象类别是一个重要的计算机视觉问题。属性预测最近取得了令人振奋的进展，通常被表述为一个多标签分类问题。然而，在以下方面仍然存在重大挑战：1）预测多个对象类别上的大量属性，2）建模属性的类别依赖性，3）系统地捕获全局和局部场景上下文，以及4）稳健地预测低像素数对象的属性。为了解决这些问题，我们提出了一种新的多类别属性预测深度架构GlideNet，该架构包含三个不同的特征提取器。全局特征提取器识别场景中存在的对象，而局部特征提取器则关注感兴趣对象周围的区域。同时，内部特征（实例特征）提取器使用标准卷积的扩展，称为通知卷积，以利用其二进制掩码检索低像素数对象的特征。GlideNet然后使用带有二进制掩码的选通机制及其自学习类别嵌入来组合密集嵌入。总体而言，全局-局部内在块理解场景的全局上下文，同时关注感兴趣的局部对象的特征。该架构通过类别嵌入来适应基于类别的特征组合。最后，使用组合特征，解释器预测属性，输出的长度由类别决定，从而删除不必要的属性。

创新点：

1. 采用了三种不同的特征抽取器；每个都有特定的目的。全局特征提取器（GFE）捕获全局信息，封装图像中不同对象的信息（它们的位置和类别类型）。局部特征抽取器（LFE）捕获局部信息，封装与对象属性及其类别和二进制掩码相关的信息。最后，实例特征提取器（IFE）封装了有关对象固有属性的信息。它确保我们仅从对象的像素估计特征，不包括其他像素的贡献。

2. IFE中使用了一种新的卷积层（称为知情卷积），以关注与属性预测相关的对象的内在信息。

3. 为了学习每个特征抽取器（FE）的适当权重，我们采用了自注意力技术。利用二进制掩码和自学习类别嵌入，我们生成“Description”，然后使用选通机制微调每个特征层的空间贡献。

4.出于两个原因，我们在最终分类阶段采用了multi-head技术。首先，它确保最终分类步骤的权重由类别决定。其次，最终输出的长度可能因类别而异。这很重要，因为不是每