Large-Scale Long-Tailed Recognition in an OpenWorld

最新推荐文章于 2024-12-02 16:56:51 发布

原创最新推荐文章于 2024-12-02 16:56:51 发布 · 3.9k 阅读

10 ·

CC 4.0 BY-SA版权

论文阅读专栏收录该内容

9 篇文章

订阅专栏

本文围绕Open Long-Tailed Recognition（OLTR）展开，它要综合处理不平衡分类、few-shot learning和open-set recognition三个问题。论文定义了OLTR任务，提出基于动态元嵌入的算法，通过关联头尾嵌入和视觉记忆动态校准分别处理尾部识别健壮性和开放识别敏感性，还组织了三个大型数据集。

Open Long-Tailed Recognition(OLTR):从自然分布的数据中学习并在包括头、尾和开放类的平衡测试集上优化分类精度。也就是对三个问题的综合

imbalanced classification
few-shot learning
open-set recognition.

论文针对的问题：
在这里插入图片描述
OLTR不仅要在封闭环境中处理不平衡分类和few-shot learning问题，还要处理open-set recognition.现有的分类方法只集中在某一方面，当考虑到整体时，性能就会大大下降。

challenge：tail recognition robustness and open-set sensitivity

解决思路：

在头尾类之间共享视觉知识来提高识别的鲁棒性。
减少tail和open类之间的混淆来提高识别灵敏度。

贡献：

定义OLTR任务
提出了一种基于动态元嵌入的OLTR算法
1. 通过将头尾嵌入的视觉关联起来处理尾部识别的健壮性，
2. 通过视觉记忆动态校准来处理开放识别的敏感性。
组织了三个大型OLTR数据集：
1. 以对象为中心的ImageNet
2. 以场景为中心的MIT Places
3. 以人脸为中心的MS1M。

dynamic meta-embedding

direct feature，从输入图像中计算特征，对尾部数据缺乏足够的监督。
memory feature，视觉记忆相关的诱发特征。从直接特性中检索内存激活的summary，并将其合并到一个适合tail类元嵌入中。

model

在这里插入图片描述

dynamic meta-embedding( $v^{direct}$ ):在头尾类之间传递知识
modulated attention( $v^{memory}$ )：在头尾之间保持判别
meta embedding( $v^{meta}$ )

$v^{memory} = o^TM := \sum_{i=1}^{K}{o_ic_i}$
$v_{meta}=(1/\gamma)\cdot(v^{direct}+e\otimes v^memory)$
$\gamma := reachability(v^{direct},M) = min_i{||v^{direct}-c_i||_2}$