论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)

深度长尾学习关注的是从长尾分布的图像数据中训练深度模型,解决真实世界中类不平衡的问题。文章对深度长尾学习的最新进展进行了全面调查,将方法分为类再平衡、信息增强和模块改进三大类,并通过相对准确度评估其性能。文章最后讨论了应用和未来研究方向。
  Deep Long-Tailed Learning: A Survey

深度长尾学习是视觉识别中最具挑战性的问题之一,旨在从大量遵循长尾类分布的图像中训练出表现良好的深度模型。在过去的十年中,深度学习已经成为学习高质量图像表征的强大识别模型,并在通用视觉识别方面取得了显著的突破。
然而,长尾类不平衡是实际视觉识别任务中的一个常见问题,它往往限制了基于深度网络的识别模型在实际应用中的实用性,因为它们很容易偏向优势类,而在尾部类上表现不佳。
为了解决这个问题,近年来进行了大量的研究,在深度长尾学习领域取得了可喜的进展。
考虑到这一领域的快速发展,本文旨在对深度长尾学习的最新进展做一个全面的调查。具体来说,我们将现有的深度长尾学习研究分为三大类(即 类的再平衡、信息增强和模块改进),并按照这一分类法对这些方法进行了详细的回顾。
之后,我们对几种最先进的方法进行了实证分析,通过新提出的评价指标,即相对准确度,评估它们在多大程度上解决了类不平衡的问题
在调查的最后,我们强调了深度长尾学习的重要应用,并确定了未来研究的几个有希望的方向。

1 INTRODUCTION

深度学习允许由多个处理层组成的计算模型学习具有多层次抽象的数据表示[1], [2],并在计算机视觉方面取得了令人难以置信的进展[3], [4], [5], [6], [7], [8]。深度学习的关键推动因素是大规模数据集的可用性,GPU的出现,以及深度网络架构的进步[9]。得益于学习高质量数据表征的强大能力,深度神经网络已被成功应用于许多视觉判别任务,包括图像分类[6]、[10]、物体检测[7]、[11]和语义分割[8]、[12]。

在现实世界的应用中,训练样本通常表现为长尾类分布,其中一小部分类有大量的样本点,但其他类只与少数样本相关[13], [14], [15], [16]。然而,这种训练样本数的类不平衡,使得基于深度网络的识别模型的训练非常具有挑战性。如图1所示,训练后的模型很容易偏向于有大量训练数据的头部类,导致在数据有限的尾部类上的模型表现不佳[17], [18], [19]。因此,通过经验风险最小化[20]的普遍做法训练的深度模型不能处理具有长尾类不平衡的现实世界应用,例如,人脸识别[21],[22],物种分类[23],[24],医学图像诊断[25],城市场景理解[26]和无人驾驶飞行器检测[27]。

在这里插入图片描述
图1. 长尾数据集的标签分布(如iNaturalist物种数据集[23],有8,000多个类)。在这些取样上学习到的头类特征空间往往比尾类大,而决策边界通常偏向于优势类。

为了解决长尾类

### 解耦表示与分类器的实现细节 在论文 *Decoupling Representation and Classifier for Long-Tailed Recognition* 中,作者提出了种解耦特征表示和分类器的训练策略,以应对长尾数据分布带来的类别不平衡问题。论文的实现细节主要围绕两个阶段展开:**联合训练阶段** 和 **解耦训练阶段**。 #### 联合训练阶段(Joint Training) 在联合训练阶段,网络的特征提取器(backbone)和分类器(classifier)同时进行训练。此阶段的目标是学习个能够区分各类别的通用特征表示,同时训练个初步的分类器。训练过程中使用了不同的采样策略,包括: - **实例平衡采样(Instance-balanced sampling)**:对所有样本均匀采样。 - **类别平衡采样(Class-balanced sampling)**:对每个类别采样相同数量的样本。 - **平方根采样(Square root sampling)**:每个类别的采样概率与其样本数的平方根成正比。 - **渐进平衡采样(Progressive-balanced sampling)**:先使用实例平衡采样,再切换到类别平衡采样。 损失函数使用的是标准的交叉熵损失(Cross-Entropy Loss),即: ```python criterion = nn.CrossEntropyLoss() ``` 在 PyTorch 中,联合训练的代码结构大致如下: ```python for epoch in range(joint_epochs): for images, labels in train_loader: features = backbone(images) outputs = classifier(features) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() ``` #### 解耦训练阶段(Decoupled Training) 在解耦训练阶段,特征提取器被冻结,仅对分类器进行微调。该阶段的目的是通过调整分类器来适应长尾数据分布,而不影响已经学习到的特征表示。 ##### 1. **类别均值分类器(NCM:Nearest Class Mean)** 在该策略中,首先计算每个类别的特征均值,然后在测试阶段使用最近邻方法(如欧氏距离或余弦相似度)进行分类。 ```python # 计算每个类别的特征均值 class_means = compute_class_means(backbone, train_loader) # 测试阶段使用最近邻分类 def predict(feature): distances = [torch.norm(feature - mean) for mean in class_means] return torch.argmin(distances) ``` ##### 2. **τ-化分类器(τ-normalized classifier)** τ-化分类器通过归化分类器权重来调整决策边界,缓解类别不平衡问题。归化后的权重计算如下: $$ \tilde{w_i} = \frac{w_i}{||w_i||^{\tau}} $$ 其中 $\tau$ 是个可调参数,通常设置为 1,即 L2 归化。 在 PyTorch 中,τ-化可以通过以下方式实现: ```python def apply_tau_normalization(classifier, tau=1.0): with torch.no_grad(): weights = classifier.weight norm = torch.norm(weights, dim=1, keepdim=True) normalized_weights = weights / (norm ** tau) classifier.weight.copy_(normalized_weights) ``` 随后,使用类别均等采样重新训练分类器,通常不使用偏置项: ```python for epoch in range(decoupled_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() # 冻结特征提取器 outputs = classifier(features) loss = criterion(outputs, labels) optimizer_decoupled.zero_grad() loss.backward() optimizer_decoupled.step() ``` ##### 3. **LWS(Learnable Weight Scaling)** LWS 是 τ-化的扩展,其中缩放因子 $f_i$ 是可学习参数。该方法通过在解耦阶段学习每个类别的缩放因子来优化分类器的决策边界。 ```python # 定义可学习的缩放因子 scaling_factors = nn.Parameter(torch.ones(num_classes)) # 在损失反向传播时,仅更新 scaling_factors optimizer_lws = torch.optim.SGD([scaling_factors], lr=lw_lr) for epoch in range(lws_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() logits = classifier(features) scaled_logits = logits * scaling_factors.unsqueeze(0) loss = criterion(scaled_logits, labels) optimizer_lws.zero_grad() loss.backward() optimizer_lws.step() ``` #### 代码结构总结 整个训练流程可以分为以下几个步骤: 1. **联合训练特征提取器和分类器**,使用不同的采样策略。 2. **冻结特征提取器**,进入解耦阶段。 3. **使用类别均等采样重新训练分类器**,采用 τ-化或 LWS 策略。 4. **在测试集上评估模型性能**,使用 NCM、τ-化或 LWS 分类器。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值