机器学习分类算法及异常项挖掘研究
1 算法概述
在机器学习领域,为了提升分类性能,提出了两种扩展 KNN 方法的途径,即 LI - KNN 和 GI - KNN。这两种方法引入了“信息性”这一全新概念,将其作为基于查询的距离度量。LI - KNN 利用这一概念选择最具信息性的点,并依据邻居中数量最多的类别来预测查询点的标签;GI - KNN 则通过从训练点学习权重向量,找出全局信息性的点。
为了评估这些方法的性能,选取了多个分类器进行对比,包括经典的 KNN 分类器、DANN(KNN 的扩展)、LMNN(最新的 KNN 扩展之一)、支持向量机(SVM)以及 Boosting 分类器。
2 实验评估
2.1 UCI 基准语料库实验
使用来自 UCI 机器学习库的 10 个具有代表性的数据集对算法进行评估。这些数据集的规模从 150 到 20000 不等,维度在 4 到 649 之间,涵盖了二分类和多分类数据。将数据集按照 4:1 的固定比例划分为训练集和测试集,经过十次运行后,取平均得到最佳测试错误率。
| 数据集 | N(实例数量) | D(维度) | C(类别数量) | KNN | DANN | LMNN | LI - KNN | GI - KNN | SVM | Boosting |
| — | — | — | — | — | — | — | — | — | — | — |
| Iris | 150 | 4 | 3 | 0.044 (9) | 0.040 (5) | 0.053 (3) | 0.013 (9, 5) | 0.010 (25) | 0.042 | 0.038 (45) |
|
LI-KNN与GI-KNN分类及异常项挖掘
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



