Large-Scale Long-Tailed Recognition in an OpenWorld

本文围绕Open Long-Tailed Recognition(OLTR)展开,它要综合处理不平衡分类、few-shot learning和open-set recognition三个问题。论文定义了OLTR任务,提出基于动态元嵌入的算法,通过关联头尾嵌入和视觉记忆动态校准分别处理尾部识别健壮性和开放识别敏感性,还组织了三个大型数据集。

Open Long-Tailed Recognition(OLTR):从自然分布的数据中学习并在包括头、尾和开放类的平衡测试集上优化分类精度。也就是对三个问题的综合

  1. imbalanced classification
  2. few-shot learning
  3. open-set recognition.

论文针对的问题:
在这里插入图片描述
OLTR不仅要在封闭环境中处理不平衡分类和few-shot learning问题,还要处理open-set recognition.现有的分类方法只集中在某一方面,当考虑到整体时,性能就会大大下降。

challenge:tail recognition robustness and open-set sensitivity

解决思路:

  1. 在头尾类之间共享视觉知识来提高识别的鲁棒性。
  2. 减少tail和open类之间的混淆来提高识别灵敏度。

贡献:

  1. 定义OLTR任务
  2. 提出了一种基于动态元嵌入的OLTR算法
    1. 通过将头尾嵌入的视觉关联起来处理尾部识别的健壮性,
    2. 通过视觉记忆动态校准来处理开放识别的敏感性。
  3. 组织了三个大型OLTR数据集:
    1. 以对象为中心的ImageNet
    2. 以场景为中心的MIT Places
    3. 以人脸为中心的MS1M。

dynamic meta-embedding

  1. direct feature,从输入图像中计算特征,对尾部数据缺乏足够的监督。
  2. memory feature,视觉记忆相关的诱发特征。从直接特性中检索内存激活的summary,并将其合并到一个适合tail类元嵌入中。

model

在这里插入图片描述

  1. dynamic meta-embedding(vdirectv^{direct}vdirect):在头尾类之间传递知识
  2. modulated attention(vmemoryv^{memory}vmemory):在头尾之间保持判别
  3. meta embedding(vmetav^{meta}vmeta)

vmemory=oTM:=∑i=1Koici v^{memory} = o^TM := \sum_{i=1}^{K}{o_ic_i} vmemory=oTM:=i=1Koici
vmeta=(1/γ)⋅(vdirect+e⊗vmemory) v_{meta}=(1/\gamma)\cdot(v^{direct}+e\otimes v^memory) vmeta=(1/γ)(vdirect+evmemory)
γ:=reachability(vdirect,M)=mini∣∣vdirect−ci∣∣2 \gamma := reachability(v^{direct},M) = min_i{||v^{direct}-c_i||_2} γ:=reachability(vdirect,M)=minivdirectci2

  • Neighborhood Sampling 怎样采样??
  • centroids 是怎样计算的??
  • coefficients hallucinated???指的是什么
  • lightweight neural network 又指的是什么?
  • γ\gammaγ 作用???
  • self-attention?
  • modulated attention
  • Cosine Classifier

在数据集加载的时候:

  1. test 模式:会把test 和 open加载进去
  2. train模式:如果有sampler_dic,会按照sampler 方式采样,如果没有就按照系统,对于val的话,transform是不一样的

MA:(modulatedatt)
SA:(spatial_att)

view+permute
view+permute
view
matmul
matmul
softmax
matmul
matmul
permute+view+conv2d
view+Linear+softmax+view
multiply
multiply
add
输入X
g_x:conv2d
theta_x:conv2d
phi_x:conv2d
map_t_p
mask_t_p
map_
mask
spatial_att
final

centroids的计算:输入x 计算feature,相同类别的feature累加求平均值

### 解耦表示与分类器的实现细节 在论文 *Decoupling Representation and Classifier for Long-Tailed Recognition* 中,作者提出了一种解耦特征表示和分类器的训练策略,以应对长尾数据分布带来的类别不平衡问题。论文的实现细节主要围绕两个阶段展开:**联合训练阶段** 和 **解耦训练阶段**。 #### 联合训练阶段(Joint Training) 在联合训练阶段,网络的特征提取器(backbone)和分类器(classifier)同时进行训练。此阶段的目标是学习一个能够区分各类别的通用特征表示,同时训练一个初步的分类器。训练过程中使用了不同的采样策略,包括: - **实例平衡采样(Instance-balanced sampling)**:对所有样本均匀采样。 - **类别平衡采样(Class-balanced sampling)**:对每个类别采样相同数量的样本。 - **平方根采样(Square root sampling)**:每个类别的采样概率与其样本数的平方根成正比。 - **渐进平衡采样(Progressive-balanced sampling)**:先使用实例平衡采样,再切换到类别平衡采样。 损失函数使用的是标准的交叉熵损失(Cross-Entropy Loss),即: ```python criterion = nn.CrossEntropyLoss() ``` 在 PyTorch 中,联合训练的代码结构大致如下: ```python for epoch in range(joint_epochs): for images, labels in train_loader: features = backbone(images) outputs = classifier(features) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() ``` #### 解耦训练阶段(Decoupled Training) 在解耦训练阶段,特征提取器被冻结,仅对分类器进行微调。该阶段的目的是通过调整分类器来适应长尾数据分布,而不影响已经学习到的特征表示。 ##### 1. **类别均值分类器(NCM:Nearest Class Mean)** 在该策略中,首先计算每个类别的特征均值,然后在测试阶段使用最近邻方法(如欧氏距离或余弦相似度)进行分类。 ```python # 计算每个类别的特征均值 class_means = compute_class_means(backbone, train_loader) # 测试阶段使用最近邻分类 def predict(feature): distances = [torch.norm(feature - mean) for mean in class_means] return torch.argmin(distances) ``` ##### 2. **τ-归一化分类器(τ-normalized classifier)** τ-归一化分类器通过归一化分类器权重来调整决策边界,缓解类别不平衡问题。归一化后的权重计算如下: $$ \tilde{w_i} = \frac{w_i}{||w_i||^{\tau}} $$ 其中 $\tau$ 是一个可调参数,通常设置为 1,即 L2 归一化。 在 PyTorch 中,τ-归一化可以通过以下方式实现: ```python def apply_tau_normalization(classifier, tau=1.0): with torch.no_grad(): weights = classifier.weight norm = torch.norm(weights, dim=1, keepdim=True) normalized_weights = weights / (norm ** tau) classifier.weight.copy_(normalized_weights) ``` 随后,使用类别均等采样重新训练分类器,通常不使用偏置项: ```python for epoch in range(decoupled_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() # 冻结特征提取器 outputs = classifier(features) loss = criterion(outputs, labels) optimizer_decoupled.zero_grad() loss.backward() optimizer_decoupled.step() ``` ##### 3. **LWS(Learnable Weight Scaling)** LWS 是 τ-归一化的扩展,其中缩放因子 $f_i$ 是可学习参数。该方法通过在解耦阶段学习每个类别的缩放因子来优化分类器的决策边界。 ```python # 定义可学习的缩放因子 scaling_factors = nn.Parameter(torch.ones(num_classes)) # 在损失反向传播时,仅更新 scaling_factors optimizer_lws = torch.optim.SGD([scaling_factors], lr=lw_lr) for epoch in range(lws_epochs): for images, labels in class_balanced_loader: features = backbone(images).detach() logits = classifier(features) scaled_logits = logits * scaling_factors.unsqueeze(0) loss = criterion(scaled_logits, labels) optimizer_lws.zero_grad() loss.backward() optimizer_lws.step() ``` #### 代码结构总结 整个训练流程可以分为以下几个步骤: 1. **联合训练特征提取器和分类器**,使用不同的采样策略。 2. **冻结特征提取器**,进入解耦阶段。 3. **使用类别均等采样重新训练分类器**,采用 τ-归一化或 LWS 策略。 4. **在测试集上评估模型性能**,使用 NCM、τ-归一化或 LWS 分类器。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值