Unsupervised Feature Learning via Non-Parametric Instance Discrimination

本文提出无监督方法Unsupervised Feature Learning,通过非参数化实例判别学习捕捉视觉相似性的特征,使用噪声对比估计解决大规模实例训练问题。在ImageNet上达到46.5%的无监督学习准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址: Unsupervised Feature Learning via Non-Parametric Instance Discrimination

官方代码: http://github.com/zhirongw/lemniscate.pytorch

摘要

在有标签数据上训练的神经网络分类器能够很好的捕捉图片间的视觉相似性。文章假设:我们能通过训练基于实例(将每一个样本视为单独的类别)的分类器代替基于类别的分类器,得到可以捕捉视觉相似性的特征表达。我们将其总结为非参数化实例级判别,并且通过**噪声对比估计(noise-contrastive estimation)**解决大量实例类别引起的计算困难。我们的实验证明了,在无监督学习的限制下,我们的方法在ImageNet数据集上超越了当前最好方法。采用更多的训练数据和更先进的网络结构,我们的方法能够进一步提高分类准确率。通过微调学习到的特征,我们能观察到与半监督学习和目标检测任务上相当的结果。同时,我们的非参数化模型十分紧致:每张图片仅需要提取128维的特征,百万量级的图片也仅需要600MB存储空间,使得实际运行时能够很快达成近邻检索的目的。

引言

深度神经网络的崛起,尤其是卷积神经网络,给计算机视觉领域带来了巨大的突破。这些成功的模型大都是通过有监督训练得到的,这意味着对于特定领域的问题需要一个很大的有标签数据集,获取大量标注数据的代价非常昂贵,在某些领域甚至是不可行的。近年来,无监督学习也受到了广泛的关注。
我们的无监督学习方法是基于以下几个在有监督学习结果上的观察得到的。在ImageNet的分类结果上,top-5的错误率总是比top-1错误率低得多,并且softmax层第二大响应对应的类别与实际类别有更多的视觉相似性。这表明了判别式学习方法能够自动发现类别间的视觉相似性,而不需要额外的指引。换句话说,显著的视觉相似性是通过数据本身学习得到的,而不是语义标签。
我们将基于类别的有监督问题转化为极端的基于实例的有监督问题,考虑能否通过实例分类学习到有意义的特征能够反映视觉上的相似性。每张图片都是独特的,与同类中的其它图片也是有明显区别的。如果我们能学习实例级别的分类器,我们或许能够得到捕捉实例间相似性的特征表达,正如基于类别的分类器能够捕捉类别间相似性那样。在这里插入图片描述
然而,我们面临着训练集上“类别”数目太大的问题。对于ImageNet来说,“类别”数目接近120万。直接采用softmax分类是不可取的,我们通过噪声对比估计来近似完整的softmax分布,并且引入额外的正则项来稳定训练过程。
为了测试无监督学习的性能,以往的工作都在学习到的特征上通过SVM进行分类,我们采用kNN分类器对测试集进行评估。我们提出的方法能够在ImageNet上取得46.5%的准确率,Places205数据集上取得41.6%的准确率。

近期工作

近期关于无监督学习的工作主要可以分为两类:生成式模型和自监督模型。

Generative Modes

生成式模型的出发点在于尽可能重构数据的分布,典型的方法有受限玻尔兹曼机(RBM),自编码器(Autoencoders)。生成式模型得到的隐空间特征能够有效帮助分类,近期的生成式模型有生成对抗网络(GAN)和变分自编码器(VAE)。

Self-supervised Learning

自监督模型利用内部数据结构,通过预测图片来训练模型。具体地,模型需要预测给定实例缺失的部分。为了学习图像的表达,预测任务可以分为上下文预测,目标计数,填补图像缺失部分,将灰度图像恢复成彩色图像,甚至是完成拼图游戏。对于视频,自监督模型包括:跟踪时间连续性,预测未来帧图像,或者保持自我运动的轨迹。

Metric Learning

度量学习是有监督的方法,在此不做过多讨论。

Examplar CNN

本文工作的基础,改进:非参数化,解决大规模实例训练问题

方法

我们的目标是无需监督信息学习一个特征映射: v = f θ ( x ) v=f_\theta(x) v=fθ(x) f θ f_\theta fθ是以 θ \theta θ为参数的卷积神经网络,将图片 x x x映射成特征 v v v。映射同样包含了图像空间的度量 d θ ( x , y ) = ∣ ∣ f θ ( x ) − f θ ( y ) ∣ ∣ d_\theta(x,y)=||f_\theta(x)-f_\theta(y)|| dθ(x,y)=fθ(x)fθ(y),一个好的映射应该能够将视觉相似的图片投影得相近。我们的无监督特征学习是实例级别的判别式学习,我们将每张图片都当作一个独特的类别对待并训练一个分类器将这些类别分开。

Non-Parametric Softmax Classifier

Parametric Classifier

假设网络的Softmax层是有参数的,对于图片 x x x,其特征 v = f θ ( x ) v=f_\theta(x) v=fθ(x),它被当作第 i i i张图片的概率是
P ( i ∣ v ) = e x p ( w i T v ) ∑ j = 1 n e x p ( w j T v ) P(i|v)=\frac{exp(w_i^Tv)}{\sum_{j=1}^nexp(w_j^Tv)} P(iv)=j=1nexp(wjTv)exp(wiTv)假设特征维度是128,图片数目为120万,这一层的参数数目超过15亿。

Non-Parametric Classifier

我们通过 L 2 L_2 L2范数归一化使得 ∣ ∣ v ∣ ∣ = 1 ||v||=1 v

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值