自编码器噪声标签检测:原理、实验与应用
在机器学习领域,数据中的噪声标签是一个常见且棘手的问题,它会严重影响模型的性能和准确性。本文将介绍一种利用卷积自编码器(Convolutional Autoencoder, CAE)和DBSCAN聚类算法进行噪声标签检测的方法,并通过实验验证其有效性。
1. 核心方法:DBSCAN聚类算法检测噪声标签
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,常用于发现数据集中的簇和噪声点。在本方法中,DBSCAN被应用于训练数据的每个类别,其基本原理是:同一类别的样本很可能具有相同的特征,因此在将DBSCAN算法应用于选定类别的所有样本时,这些样本在潜在空间中的编码样本应该被分类到一个簇中。而DBSCAN算法识别出的离群点很可能是被错误标记的样本,这些离群点将从训练数据中移除。
为了确定DBSCAN算法的超参数$\epsilon$,采用了Rahmah的算法。该算法的具体步骤如下:
1. 计算欧几里得距离 :对同一标签的样本计算每对数据之间的欧几里得距离。
2. 矩阵归一化 :由于距离计算结果呈上三角形式,需要将其归一化为完整矩阵,以便于搜索每条距离计算线上的$k$个最近邻。
3. 搜索$k$最近邻并排序 :对矩阵每行的$k$个最近邻进行搜索,并按距离升序排序。
4. 绘制图形并计算斜率差 :以对象为$x$轴,$k$个最近邻的距离为$y$轴绘制图形
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



