KNN浅析

K-近邻算法详解

最新推荐文章于 2020-11-07 22:42:07 发布

原创最新推荐文章于 2020-11-07 22:42:07 发布 · 249 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

sklearn 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了K-近邻算法的基本原理与步骤，探讨了其优缺点，并通过Python实现了一个简单的示例。K-近邻算法是一种精确度高的分类算法，能够处理多种类型的输入数据，但在计算和存储上需求较高。

k-近邻算法

1.1算法原理及步骤

为了判断未知实例的标签，以所有已知标签的实例为参照，选择参数k（多为奇数），计算未知实例与所有已知实例的距离，选择最近k个已知空间，少数服从多数的投票法则，让未知实例归类为k个最邻近样本中最多数的标签。

1.2优缺点

优点：精度高、对异常值不敏感，无输入数据假定、通过对K的选择可具备噪音数据的健壮性；缺点：计算复杂度高、空间复杂度高（需要大量空间存储所有已知实例）、样本分布不均衡时，比如其中一类样本过大（数量占主导），新的未知实例容易被归类为这个主导样本，但这个新的未知实例未必接近目标样本。特性：KNN无训练数据集的过程，懒惰算法。

1.3python实现

注：labels标签向量的元素数目和矩阵dataset的行数相同

import operator

import numpy as np

#构造数据集以及标签{A,B}两类

def createDataset() :

group = np.array([[1.0,1.1 ],[1.0, 1.0],[0 , 0],[0 ,0.1]])

labels = ['A','A','B','B']

return group,labels

group ,labels = createDataset()

#print(group.shape)

#print(labels)

def classfyknn(inx, dataset, k) :

datasetsize =dataset.shape[0] #hang shu

diffmat =np.tile (inx , ( datasetsize,1)) -dataset # compute xi- yi

sqdiffmat =diffmat ** 2

sqdistance = sqdiffmat.sum( axis = 1)

distances = sqdistance ** 0.5

sortedindex=distances.argsort()

classcount = {}

for i in range(k) :

votelabel = labels[sortedindex[i]]

#print(classcount.get(votelabel ,0))

classcount[votelabel] = classcount.get(votelabel ,0) +1 #修改default值none=0 方便数值计算

#print(classcount)

sortedclasscount =sorted( classcount.items() ,key =operator.itemgetter(1) ,reverse = True) #按votes sort

#print(sortedclasscount)

return sortedclasscount[0][0]

a=classfyknn([0,0.2], group , 3)

print(a) ------------#返回类别标签B

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。