基于SCAN的无监督图像分类教程：STL-10数据集实战-优快云博客

基于SCAN的无监督图像分类教程：STL-10数据集实战

本文将通过STL-10数据集，详细介绍如何使用SCAN（Semantic Clustering by Adopting Nearest neighbors）方法实现无监督图像分类。SCAN是一种无需人工标注即可学习图像分类的创新方法，其核心思想是通过自监督预训练和语义聚类两个阶段实现。

建议使用配备NVIDIA GPU（1080TI或更高性能）的工作站进行实验。GPU加速能显著提升模型训练效率。

需要配置以下环境：

可通过conda创建专用环境：

conda create -n scan_env python=3.7
conda activate scan_env
conda install pytorch=1.6 torchvision cudatoolkit=10.2 -c pytorch

项目需要建立以下目录结构用于存储模型和中间结果：

repository_eccv/
└── stl-10/
    └── pretext/

SCAN方法的第一阶段是使用SimCLR进行自监督预训练，这一步骤可以在无标签数据上学习有效的视觉表示。

配置文件configs/pretext/simclr_stl10.yml包含了STL-10数据集上的预训练参数。主要参数包括：

运行以下命令启动预训练：

python simclr.py --config_env configs/env.yml --config_exp configs/pretext/simclr_stl10.yml

为节省时间，可以直接使用提供的预训练模型。下载后需执行：

python tutorial_nn.py --config_env configs/env.yml --config_exp configs/pretext/simclr_stl10.yml

该步骤会计算最近邻，输出类似以下结果表示成功：

> Accuracy of top-20 nearest neighbors on train set is 72.81
> Accuracy of top-5 nearest neighbors on val set is 79.85

第二阶段使用SCAN算法在预训练特征上进行语义聚类。

配置文件configs/scan/scan_stl10.yml包含：

运行以下命令启动聚类：

python scan.py --config_env configs/env.yml --config_exp configs/scan/scan_stl10.yml

典型输出结果包含多个评估指标：

> {'ACC': 0.8015, 'ARI': 0.6332, 'NMI': 0.6823, 'Top-5': 0.9906}

其中：

SCAN提供了两种可视化方式帮助理解聚类结果：

展示各类别间的混淆情况，可直观发现模型容易混淆的类别（如猫、狗、猴等视觉相似的类别）。

展示每个聚类簇最具代表性的样本（即最接近簇中心的样本）。

执行以下命令生成可视化结果：

python eval.py --config_exp configs/scan/scan_stl10.yml --model repository_eccv/stl-10/scan/model.pth.tar --visualize_prototypes

SCAN方法的创新性在于两阶段设计：

这种方法突破了传统聚类算法（如K-means）在图像数据上的局限性，能够发现更具语义意义的类别划分。

本教程详细介绍了在STL-10数据集上使用SCAN进行无监督分类的完整流程。实验结果表明，该方法无需任何人工标注即可达到约80%的分类准确率，证明了自监督学习和语义聚类结合的有效性。这种方法特别适用于标注成本高昂的应用场景，为计算机视觉领域的无监督学习提供了实用解决方案。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考