机器学习（一）—K-近邻算法

最新推荐文章于 2022-11-03 11:13:46 发布

原创

最新推荐文章于 2022-11-03 11:13:46 发布 · 271 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #k近邻

本文介绍了机器学习中的K-近邻算法，包括其在数值型和标称型数据上的应用。通过Python代码展示了算法实现，如在约会网站数据分析中的应用，得到6.4%的错误率。接着讨论了在书写数字识别任务上的表现，随着k值变化，错误率从1.16%（k=3）到1.80%（k=5）不等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-近邻（k-Nearest Neighbors）

我自己的理解就是：把输入的无标签数据，和现有的有标签数据进行特征比较，在最相似的K个数据中，把次数出现最多的分类（标签），作为新数据的分类。
优点：精度高，
对异常值不敏感，无数据输入假定。
缺点：计算复杂度高，空间复杂度高。

使用数据范围：数值型和标称型。

python代码：

# -*- coding: UTF-8 -*-
from numpy import *
import operator

def creatDataSet():
    group = array([[1.0, 1.1],[1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A','A','B','B']
    return group, labels

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet   # tile函数，tile([1,2],[2,2]) = array([[1,2,1,2],[1,2,1,2])
    spDiffMat = diffMat**2
    sqDistances = spDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()   # argsort函数返回的是数组值从小到大的索引值
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlab