论文阅读笔记（12）：Deep Clustering for Unsupervised Learning of Visual Features, 基于深度聚类的视觉特征无监督学习

最新推荐文章于 2025-03-22 14:06:35 发布

塔_Tass

最新推荐文章于 2025-03-22 14:06:35 发布

阅读量1.4k

点赞数

文章标签：聚类无监督学习深度学习卷积神经网络

本文链接：https://blog.youkuaiyun.com/weixin_44876302/article/details/119715528

版权

论文阅读笔记（12）：Deep Clustering for Unsupervised Learning of Visual Features, 基于深度聚类的视觉特征无监督学习

摘要
介绍
方法
实验
总结

facebook AI实验室19年的论文，deep cluster的基础

摘要

聚类是一类无监督学习方法，在计算机视觉中得到了广泛的应用和研究。为了使其适应大规模数据集上视觉特征的端到端训练，几乎没有做过什么工作。在这项工作中，我们提出了Deep Cluster，一种联合学习神经网络参数和结果特征的聚类分配的聚类方法。Deep Cluster使用标准聚类算法k-means对特征进行分组，并使用后续分割作为监督来更新网络权重。我们将Deep Cluster应用于卷积神经网络在大型数据集上的无监督训练。由此产生的模型在所有标准基准上都比目前的技术水平有显著的优势。

介绍

预训练的卷积神经网络（ConvNet）已成为大多数计算机视觉应用中的构建模块。它们产生了优秀的通用功能，可用于改进在有限数据量上学习的模型的泛化。ImageNet是一个大型全监督数据集，它的存在推动了ConvNet预训练的发展。然而，最近提供了经验证据表明，ImageNet上最先进的分类机的性能在很大程度上被低估，很少有错误没被解决。这在一定程度上解释了为什么尽管近年来提出了许多新颖的体系结构，但性能一直处于饱和状态。事实上，按照今天的标准，ImageNet相对较小；它“仅”包含100万张图像，涵盖对象分类的特定领域。向前发展的一个自然方式是构建一个更大、更多样化的数据集，可能包含数十亿张图像。这反过来又需要大量的手动注释和众多方面的专家知识。用原始元数据(metadata)替换标签会导致视觉表征中的偏差，并产生不可预测的后果。这就需要能够在无监督的情况下在互联网规模的数据集上进行训练的方法。

无监督学习已在机器学习领域得到广泛研究，聚类、降维或密度估计算法也经常用于计算机视觉应用。例如，“bag of features”模型在手工制作的本地脚本上使用聚类来生成良好的图片级功能。其成功的一个关键原因是，它们可以应用于任何特定领域或数据集，如卫星或医学图像，或使用新模式（如深度）捕获的图像，其中的标注标签并不总是大量可用。几项研究表明，有可能将基于密度估计或降维的无监督方法应用于深度模型，从而产生有前景的多用途视觉特征。尽管聚类方法在图像分类方面取得了初步的成功，但很少有人提出将其应用于ConvNet的端到端训练，而且从未大规模应用。一个问题是，聚类方法主要是为固定特征之上的线性模型设计的，如果必须同时学习特征，它们几乎不起作用。例如，使用k-means学习ConvNet将导致一个平凡解，其中特征归零，聚类压缩成一个实体。

在这项工作中，我们提出了一种新的大规模端到端训练网络的聚类方法。我们表明，使用聚类框架可以获得有用的通用视觉特征。我们的方法，如图1所示，包括在图像描述符的聚类和通过预测聚类分配更新ConvNet的权重之间进行交替。为简单起见，我们将研究重点放在k-means上，但也可以使用其他聚类方法，如幂迭代聚类（PIC）。整个pipeline接近ConvNet的有监督培训，以重用许多常见技巧。与自监督方法不同，聚类的优点是只需要很少的领域知识，并且不需要来自输入的特定信号。尽管简单，但我们的方法在ImageNet分类和传输任务方面的性能明显高于此前的无监督方法。

在这里插入图片描述
最后，我们通过修改训练集和ConvNet体系结构，探讨了框架的健壮性。由此产生的一组实验扩展了Doersch等人[25]关于这些选择对无监督方法性能的影响的讨论。我们证明了我们的方法对于体系结构的变化是健壮的。用VGG替换AlexNet可显著提高功能的质量及其后续传输性能。更重要的是，我们讨论了使用ImageNet作为无监督模型的训练集。虽然它有助于理解标签对网络性能的影响，但ImageNet有一个特殊的图像分布，它继承了用于细粒度图像分类的挑战：它由平衡良好的类组成，例如，包含各种各样的狗品种。作为替代，我们考虑来自THOMEE等人的YFCCF100M数据集的随机图像。我们表明，在对这种未经处理的数据分布进行训练时，我们的方法保持了最先进的性能。最后，当前的基准关注于无监督ConvNet捕获类别级信息的能力。我们还建议在图像检索基准上对它们进行评估，以衡量它们捕获实例级信息的能力。

方法

准备工作

基于统计学习的现代计算机视觉方法需要良好的图像特征化。在这种情况下，convnet是将原始图像映射到固定维度向量空间的常用选择。在接受足够数据的训练后，他们在标准分类基准上不断取得最佳表现。我们用 $f_θ$ 表示convnet映射，其中 $θ$ 是相应参数集合。我们将通过将此映射应用于图像而获得的向量称为特征或表征。在给定有N个图像的训练集 $X=\{x_1,x_2,\cdots,x_N\}$