K近邻与K-means与DBSCAN算法
K-近邻算法(KNN)
KNN概述 (有监督算法,分类算法)
KNN是通过测量不同特征值之间的距离进行分类,它的思想是:如果一个样本在特征空间中的k个最相似(即:特征空间中最邻近)的样本中大多数属于某个类别,则该样本也属于这个类别。其算法描述为:
- 计算测试数据与各个训练数据之间的距离 ;
- 按照距离的递增关系进行排序;
- 选择距离最小的k个点;
- 确定前k个点所在类别的出现频率;
- 返回前k个点出现频率最高的类别作为测试数据的预测分类。
KNN优点
1.理论成熟,思想简单,既可以用来做分类也可以用来做回归。
2.可用于非线性分类 。
3.适用于样本容量比较大的类域的自动分类。
KNN缺点
1.计算量大,分类速度慢
2.KNN在对属性较多的训练样本进行分类时,由于计算量大而使其效率大大降低效果。
3.K值难以确定 :目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值。
4.对不平衡样本集比较敏感:当样本不平衡时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
K-Means算法
K-Means概述 (无监督算法,聚类算法,随机算法)
在K-Means算法中,用质心表示cluster;且容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means流程如下 :
1. 选取k个初始质心(作为初始cluster);
2. repeat : 对于每个样本点,计算得到距离最近的质心,将其类别标为该质心对应的cluster;重新计算K个cluster对应的质心。
3. untill
KNN、K-Means与DBSCAN解析

本文深入探讨了三种常见的机器学习算法:K-近邻(KNN)、K-均值(K-Means)和基于密度的空间聚类(DBSCAN)。详细讲解了各自的原理、优缺点及适用场景,帮助读者理解这些算法在分类和聚类任务中的应用。
最低0.47元/天 解锁文章
757

被折叠的 条评论
为什么被折叠?



