k-NN

最新推荐文章于 2025-08-10 17:43:02 发布

SUSU0203

最新推荐文章于 2025-08-10 17:43:02 发布

阅读量415

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习 kNN

本文链接：https://blog.youkuaiyun.com/SUSU0203/article/details/84967211

机器学习专栏收录该内容

1 篇文章

订阅专栏

k近邻算法的工作原理：

存在一个样本数据集合（训练样本集），并且样本集中每个数据都存在标签，我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集合中前k个最相似的数据，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

kNN实现伪代码：

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排序；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

代码实现

def kNN(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistance = sqDiffMat.sum(axis=1)
    distances = sqDistance ** 0.5
    sortedDistIndicies = distances.argsort()
    ClassCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        ClassCount[voteIlabel] = ClassCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(ClassCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

（1）kNN函数输入的四个参数：用于分类的输入向量inX，输入的训练样本集为dataSet，标签向量labels，选择最近邻的数目k

（2）dataSetSize=dataSet.shape[0] //训练样本集dataSet的第一维大小（样本数量）

（3）numpy.tile(A,reps) //Construct an array by repeating A the number of times given by reps.

（4）** 次方操作

（5）get函数，详见这里

（6）sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

这里使用了sorted()函数sorted(iterable, cmp=None, key=None, reverse=False)，iteritems()将dict分解为元组列表，operator.itemgetter(1)表示按照第二个元素的次序对元组进行排序，reverse=True降序