长尾分布系列论文解析(一)Decoupling Representation and Classifier for Long-Tailed Recognition

本文探讨了长尾分布问题及其在分类任务中的影响。针对数据集类别分布不均等问题,文章介绍了多种采样策略及特征提取与分类器解耦合的训练方法,并通过实验证明了解耦训练的有效性。

引言

 看了挺多长尾分布的论文,从中获益匪浅,长尾分布的问题并不仅仅只局限于早期的分类问题之中,而是广泛存在于深度学习的多项任务之中。接下来一系列的文章将会去介绍近年来几篇典型的研究长尾分布的论文,这些论文也来自于不同的领域,足见长尾分布的普遍性。

首先给长尾分布下一个不那么严谨的定义,长尾分布指的是数据集中的多数样本只覆盖了一小部分的类别, 而其他类别的样本只占据了总体的一小部分,表现出现了样本数量在类别上的不均衡。而更进一步的,长尾分布的的概念也可以扩充到回归问题上,比如在年龄预测问题上,一般我们都是将其作为回归问题来考量,而年龄分布也具有着长尾分布的特性,年龄处于中值的青壮年占人口的大部分,而年龄偏小的老幼只占小部分。
在这里插入图片描述

长尾分布带来的问题也十分的直观,网络训练过程中会更加倾向于向着多数样本的方向适应,而在少数样本上则会有些水土不服。

本篇所涉及到的论文为:

分类问题中的长尾分布

 分类问题中的长尾分布问题也是被研究人员关注最多的问题,目前已经有了许多的应对方法,大体上可以划分为以下三个方向:

  1. 数据分布上的调整:既然长尾分布的问题源头在与数据中的类别分布不平衡,那么最简单的解决办法就是对数据进行重采样使其分布平衡。而依据重采样方法的不同,又可以继续划分为过采样欠采样,前者通过对少数样本进行增广(如简单的复制)实现,后者通过减少多数样本的数目(如直接删除)实现。此外也有着也有类别均等采样的策略。(这一策略就是忽略原始分布,每一类样本被采样到的概率相同)
  2. 损失函数的调整:数据上的调整终究不可能无中生有,另一条可行的道路就是使得网络在训练时不要忽略少数样本。因此研究者选择对损失函数进行调整,为不同样本训练时的损失赋予不等的权重以对抗分布的不均等。
  3. 知识迁移:长尾分布导致网络所学到的知识主要来自于多数样本而忽视了少数样本,那么我们完全可以将抽象为迁移学习问题,即如何使得大数据集上训练模型在另一小数据集上保持特征提取能力。

而在Decoupling Representation and Classifier for Long-Tailed Recognition一文中,作者主要是对第一个方向的解法进行了思考,同时提出了一种新的解决策略–将特征提取器和分类器的训练过程解耦,主要结论如下:

  1. 常见的sampling策略并没有那么有效,在解耦训练的情况下,作者的多项采样策略方案对比中instance balance 采样也就是随机采样获得了最好的分类准确率。而其他的类别均等采样、平方根采样等复杂策略反而使得性能下降。
  2. 长尾分布问题中特征学习和两部分分阶段训练相比联合训练可以获得更好的效果。这里的分阶段训练指的是先将二者视为整体进行训练,再对最后分类器,也就是最后全连接层进行调整。这里的调整方法是可以冻住表征层,只对分类层额外训练多个epoch;或者是对分类层的权重进行非参的norm等等。结果表明大部分情况下这种decoupling的策略会比joint的方法表现更好,同时非参norm的结果也出人意料的优秀。但作者关于这部分的解释“分类的边界变宽,所以many shot类的判决效果好,few shot的效果差”,不是很懂。

采样策略

 首先作者给出了长尾分布问题中主流采样策略进行的统一规范化表示:
p j = n j q ∑ i = 1 C n i q p_j=\frac{n^q_j}{\sum_{i=1}^C n^q_i} pj=i=1Cniqnjq
其中 p j p_j pj为抽取到类别 j j

### 解耦表示与分类器的实现细节 在论文 *Decoupling Representation and Classifier for Long-Tailed Recognition* 中,作者提出了种解耦特征表示和分类器的训练策略,以应对长尾数据分布带来的类别不平衡问题。论文的实现细节主要围绕两个阶段展开:**联合训练阶段** 和 **解耦训练阶段**。 #### 联合训练阶段(Joint Training) 在联合训练阶段,网络的特征提取器(backbone)和分类器(classifier)同时进行训练。此阶段的目标是学习个能够区分各类别的通用特征表示,同时训练个初步的分类器。训练过程中使用了不同的采样策略,包括: - **实例平衡采样(Instance-balanced sampling)**:对所有样本均匀采样。 - **类别平衡采样(Class-balanced sampling)**:对每个类别采样相同数量的样本。 - **平方根采样(Square root sampling)**:每个类别的采样概率与其样本数的平方根成正比。 - **渐进平衡采样(Progressive-balanced sampling)**:先使用实例平衡采样,再切换到类别平衡采样。 损失函数使用的是标准的交叉熵损失(Cross-Entropy Loss),即: ```python criterion = nn.CrossEntropyLoss() ``` 在 PyTorch 中,联合训练的代码结构大致如下: ```python for epoch in range(joint_epochs): for images, labels in train_loader: features = backbone(images) outputs = classifier(features) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() ``` #### 解耦训练阶段(Decoupled Training) 在解耦训练阶段,特征提取器被冻结,仅对分类器进行微调。该阶段的目的是通过调整分类器来适应长尾数据分布,而不影响已经学习到的特征表示。 ##### 1. **类别均值分类器(NCM:Nearest Class Mean)** 在该策略中,首先计算每个类别的特征均值,然后在测试阶段使用最近邻方法(如欧氏距离或余弦相似度)进行分类。 ```python # 计算每个类别的特征均值 class_means = compute_class_means(backbone, train_loader) # 测试阶段使用最近邻分类 def predict(feature): distances = [torch.norm(feature - mean) for mean in class_means] return torch.argmin(distances) ``` ##### 2. **τ-化分类器(τ-normalized classifier)** τ-化分类器通过归化分类器权重来调整决策边界,缓解类别不平衡问题。归化后的权重计算如下: $$ \tilde{w_i} = \frac{w_i}{||w_i||^{\tau}} $$ 其中 $\tau$ 是个可调参数,通常设置为 1,即 L2 归化。 在 PyTorch 中,τ-化可以通过以下方式实现: ```python def apply_tau_normalization(classifier, tau=1.0): with torch.no_grad(): weights = classifier.weight norm = torch.norm(weights, dim=1, keepdim=True) normalized_weights = weights / (norm ** tau) classifier.weight.copy_(normalized_weights) ``` 随后,使用类别均等采样重新训练分类器,通常不使用偏置项: ```python for epoch in range(decoupled_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() # 冻结特征提取器 outputs = classifier(features) loss = criterion(outputs, labels) optimizer_decoupled.zero_grad() loss.backward() optimizer_decoupled.step() ``` ##### 3. **LWS(Learnable Weight Scaling)** LWS 是 τ-化的扩展,其中缩放因子 $f_i$ 是可学习参数。该方法通过在解耦阶段学习每个类别的缩放因子来优化分类器的决策边界。 ```python # 定义可学习的缩放因子 scaling_factors = nn.Parameter(torch.ones(num_classes)) # 在损失反向传播时,仅更新 scaling_factors optimizer_lws = torch.optim.SGD([scaling_factors], lr=lw_lr) for epoch in range(lws_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() logits = classifier(features) scaled_logits = logits * scaling_factors.unsqueeze(0) loss = criterion(scaled_logits, labels) optimizer_lws.zero_grad() loss.backward() optimizer_lws.step() ``` #### 代码结构总结 整个训练流程可以分为以下几个步骤: 1. **联合训练特征提取器和分类器**,使用不同的采样策略。 2. **冻结特征提取器**,进入解耦阶段。 3. **使用类别均等采样重新训练分类器**,采用 τ-化或 LWS 策略。 4. **在测试集上评估模型性能**,使用 NCM、τ-化或 LWS 分类器。 --- ###
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值