《Query2Label》论文精读：一种简单而有效的方法来解决多标签分类问题

最新推荐文章于 2025-09-13 17:12:32 发布

原创

最新推荐文章于 2025-09-13 17:12:32 发布 · 1.3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #数据挖掘 #人工智能

在这里插入图片描述

该论文由中国研究机构发表于2021年7月，截止现在2024年10月，引用数是212次

文章目录

1. 论文核心贡献（省流版阅读这里即可）
2. 实现方法
3. 实验

1. 论文核心贡献（省流版阅读这里即可）

在这里插入图片描述

这段描述总结了论文的主要贡献，具体如下：

提出新的框架：
- 论文开发了一个基于Transformer的两阶段框架Query2Label，用于多标签分类任务。这个框架提供了一种有效的查询类别标签是否存在的方式。
- 论文指出，据他们所知，这是首次将Transformer解码器架构应用于分类任务中。这意味着之前Transformer在分类任务中的应用较少，而本文提供了一种新的尝试。
交叉注意力模块的作用：
- 论文展示了Transformer解码器内置的交叉注意力模块可以自适应地提取对象特征。此外，多头注意力机制（multi-head attention）进一步帮助将对象表示分解成多个部分或视角，从而提高了分类性能并增强了模型的可解释性。
- 这一点很重要，因为可解释性是机器学习模型中经常被关注的问题，而多头注意力机制显然在这方面有所助益。
实验验证：
- 论文通过在多个广泛使用的数据集上进行全面的实验来验证所提出方法的有效性。这些数据集包括MS-COCO、PASCAL VOC、NUSWIDE（应为NUS-WIDE）和Visual Genome。
- 实验结果显示，Query2Label在所有这些数据集上都建立了新的最先进（state-of-the-art）结果，这意味着该方法在性能上超越了现有的方法。

总结来说，这篇论文的主要贡献在于：

提出了一个名为Query2Label的两阶段框架，利用Transformer解码器来进行多标签分类；
展示了Transformer解码器的交叉注意力模块如何提高分类性能并增强模型的可解释性；
通过实验验证了该方法的有效性，并在多个标准数据集上取得了领先的结果。

2. 实现方法

实现方法分两部分来解释，第一部分是总体框架结构，第二部分是损失函数

2.1. 总体框架

给定一个输入图像x，在一组感兴趣的类别中，多标签分类是预测每个类别是否存在。类别可以是对象类（例如，人、狗、表等）或一个场景类别（草、天空等）。假设总共有K个类别，我们将x的对应标签表示为y = [y₁，…，y_K]，其中y_k∈{0,1}，k = 1，…，K，是一个离散的二进制指标。y_k = 1表示图像x有第k个类别标签，否则y_k = 0。使用x作为输入，我们的模型预测了每个类别存在的概率，p = [p₁，…，p_K]，其中y_k∈[0,1]，k = 1，…，K。

对于输入图像，首先在第一阶段将其输入图像特征提取器，进行Feature Extracting，得到空间特征。第二阶段由两个模块组成：一个用于Query updating和adaptive feature pooling的multi