对未知类别属性的数据集中的每个点依次执行以下操作:
(1) 计算已知类别数据集中的点与当前点之间的距离;
(2) 按照距离递增次序排列;
(3) 选取与当前点距离最小的k个点;
(4) 确定前k个点所在类别的出现频率;
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。
距离计算使用的是欧式距离公式。
程序清单:
from numpy import *
import operator
def knn(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances ** 0.5
sortedDistances = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistances[i]] #特征值赋给voteIlabel
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
print(knn([1.2, 1.2], array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]), ['A', 'A', 'B', 'B'], 3))
本文介绍了一种基于距离的分类算法——K最近邻(KNN)算法。该算法通过计算待分类样本与已知类别样本间的距离,并选取距离最近的K个样本进行投票来实现分类。文中详细介绍了KNN算法的具体步骤,包括距离计算、排序、选取最近邻居等过程,并给出了一段Python代码实现。
4201

被折叠的 条评论
为什么被折叠?



