k-临近算法

最新推荐文章于 2024-04-01 20:19:27 发布

翻译最新推荐文章于 2024-04-01 20:19:27 发布 · 436 阅读

本文介绍了一种基于距离的分类算法——K最近邻(KNN)算法。该算法通过计算待分类样本与已知类别样本间的距离，并选取距离最近的K个样本进行投票来实现分类。文中详细介绍了KNN算法的具体步骤，包括距离计算、排序、选取最近邻居等过程，并给出了一段Python代码实现。

对未知类别属性的数据集中的每个点依次执行以下操作：

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排列；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

距离计算使用的是欧式距离公式。

程序清单：

from numpy import *
import operator


def knn(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    sortedDistances = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistances[i]]  #特征值赋给voteIlabel
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

print(knn([1.2, 1.2], array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]), ['A', 'A', 'B', 'B'], 3))