面试题_K近邻(KNN)与K-means与DBSCAN算法

KNN、K-Means与DBSCAN解析
本文深入探讨了三种常见的机器学习算法:K-近邻(KNN)、K-均值(K-Means)和基于密度的空间聚类(DBSCAN)。详细讲解了各自的原理、优缺点及适用场景,帮助读者理解这些算法在分类和聚类任务中的应用。

K-近邻算法(KNN)

KNN概述 (有监督算法,分类算法)

  KNN是通过测量不同特征值之间的距离进行分类,它的思想是:如果一个样本在特征空间中的k个最相似(即:特征空间中最邻近)的样本中大多数属于某个类别,则该样本也属于这个类别。其算法描述为:

  1. 计算测试数据与各个训练数据之间的距离 ;
  2. 按照距离的递增关系进行排序;
  3. 选择距离最小的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最高的类别作为测试数据的预测分类。

KNN优点

 1.理论成熟,思想简单,既可以用来做分类也可以用来做回归。
 2.可用于非线性分类 。
 3.适用于样本容量比较大的类域的自动分类。

KNN缺点

 1.计算量大,分类速度慢
 2.KNN在对属性较多的训练样本进行分类时,由于计算量大而使其效率大大降低效果。
 3.K值难以确定 :目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值。 
 4.对不平衡样本集比较敏感:当样本不平衡时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

K-Means算法

K-Means概述 (无监督算法,聚类算法,随机算法)

  在K-Means算法中,用质心表示cluster;且容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means流程如下 :
 1. 选取k个初始质心(作为初始cluster);
 2. repeat : 对于每个样本点,计算得到距离最近的质心,将其类别标为该质心对应的cluster;重新计算K个cluster对应的质心。
 3. untill

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值