概述
K近邻算法是一种懒惰算法,即没有对数据集进行训练的过程,其模型的三个要素:距离度量、k值的选择和分类决策规则决定。
K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。
李航老师《统计学习方法》中,定义的K近邻算法如下:
距离度量:
算法虽然简单,但在其中也要解决一些问题滴。比如,距离度量该怎么选择、k值该怎么选择、分类决策规定该怎么选择。
对于距离度量,一般使用欧式距离,也可以使用其它距离的度量方式,常见的距离度量如下:
K值的选择:
K值的选择是一个玄学问题,取小点,太草率;取多点,比如取到数据集的个数,又没什么意义。
因此,k值的选择很大程度上根据经验来选取。当然可以加些科学的手段,比如用交叉验证法、贝叶斯法

K近邻算法是一种懒惰学习方法,无需训练过程。其关键要素包括距离度量、K值选择和分类决策规则。通常采用欧式距离,K值选择依赖经验或使用验证方法,多数表决规则是最常见的分类决策方式。KNN适用于分类和回归,优点是准确度高、对异常值不敏感,但面临样本不均衡、效率低下和内存需求大的问题。
最低0.47元/天 解锁文章
算法&spm=1001.2101.3001.5002&articleId=76759526&d=1&t=3&u=28852c359534472a8c99b02be7ce51d3)
900

被折叠的 条评论
为什么被折叠?



