28、自编码器噪声标签检测：原理、实验与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/raspberrypi5/article/details/152022967

自编码器噪声标签检测：原理、实验与应用

在机器学习领域，数据中的噪声标签是一个常见且棘手的问题，它会严重影响模型的性能和准确性。本文将介绍一种利用卷积自编码器（Convolutional Autoencoder, CAE）和DBSCAN聚类算法进行噪声标签检测的方法，并通过实验验证其有效性。

1. 核心方法：DBSCAN聚类算法检测噪声标签

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的空间聚类算法，常用于发现数据集中的簇和噪声点。在本方法中，DBSCAN被应用于训练数据的每个类别，其基本原理是：同一类别的样本很可能具有相同的特征，因此在将DBSCAN算法应用于选定类别的所有样本时，这些样本在潜在空间中的编码样本应该被分类到一个簇中。而DBSCAN算法识别出的离群点很可能是被错误标记的样本，这些离群点将从训练数据中移除。

为了确定DBSCAN算法的超参数$\epsilon$，采用了Rahmah的算法。该算法的具体步骤如下：
1. 计算欧几里得距离 ：对同一标签的样本计算每对数据之间的欧几里得距离。
2. 矩阵归一化 ：由于距离计算结果呈上三角形式，需要将其归一化为完整矩阵，以便于搜索每条距离计算线上的$k$个最近邻。
3. 搜索$k$最近邻并排序 ：对矩阵每行的$k$个最近邻进行搜索，并按距离升序排序。
4. 绘制图形并计算斜率差 ：以对象为$x$轴，$k$个最近邻的距离为$y$轴绘制图形