机器学习实验(KNN算法）

最新推荐文章于 2025-10-28 21:12:19 发布

原创最新推荐文章于 2025-10-28 21:12:19 发布 · 295 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能

本文介绍了K-近邻算法的基本概念、常用距离指标（欧几里得和曼哈顿距离）、实现案例，以及KNN在实际中的应用，包括如何选择超参数k和算法的局限性。还提到了在使用PyTorch时遇到的问题及解决方案。

一、K-近邻算法（即KNN算法）定义与思想

定义
k-近邻算法是一种基本分类和回归的方法；即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。（简单的比喻就是“少数服从多数”）。

思想
k-近邻算法的基本思想是基于已有的样本数据集，对新的未知样本进行预测。对于一个未知的数据样本，k-近邻算法会在已有的样本数据集中找到与样本距离最近的k个数据点，然后选择这k个数据点中出现次数最多的标签作为最后的预测结果。

二、KNN算法中常用的距离指标

欧几里得距离

它也被称为L2范数距离。欧几里得距离是我们在平面几何中最常用的距离计算方法，即两点之间的直线距离。在n维空间中，两点之间的欧几里得距离计算公式为：

d = sqrt((x2-x1)^2 + (y2-y1)^2)

曼哈顿距离

它也被称为L1范数距离。曼哈顿距离是计算两点在一个网格上的路径距离，与上述的直线距离不同，它只允许沿着网格的水平和垂直方向移动。在n维空间中，两点之间的曼哈顿距离计算公式为：

d = |x2-x1| + |y2-y1|

三、KNN算法具体实现案例

基本思路：

本次实验我利用已有数据集对未知的喜欢程度进行预测

数据集：

代码

# 通过输入一个人的三维特征,进行分类输出
def classifyPerson():
    #输出结果
    resultList = ['讨厌','有些喜欢','非常喜欢']
    #三维特征用户输入
    ffMiles = float(input("每年获得的飞行常客里程数:"))
    precentTats = float(input("玩视频游戏所耗时间百分比:"))
    iceCream = float(input("每周消费的冰激淋公升数:"))
    #打开的文件名
    filename = "datingTestSet.txt"
    #打开并处理数据
    datingDataMat, datingLabels = file2matrix(filename)
    #训练集归一化
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #生成NumPy数组,测试集
    #inArr = np.array([precentTats, ffMiles, iceCream])
    inArr = np.array([ffMiles, precentTats, iceCream])
    #测试集归一化
    norminArr = (inArr - minVals) / ranges
    #返回分类结果
    classifierResult = classify0(norminArr, normMat, datingLabels, 3)
    #打印结果
    print("你可能%s这个人" % (resultList[classifierResult-1]))

输入4999

3结果输出非常喜欢

总结：

问题总结

1、显示gbk编码器无法解码字节其字节序列为非法多字序列；

解决方法：encoding='gb18030',errors = 'ignore'（利用ignore忽视这些特殊字符）

2、激活pytorch遇到报错usage: conda-script.py [-h] [--no-plugins] [-V] COMMAND ... conda-script.py: error: arg

解决方法：改用activate pytorch命令来激活pytorch

实验总结

1、K的取值
knn实验中有一个关键点：k k的取值很大程度决定了实例的准确性，其实k值是KNN算法的一个超参数，k的含义即参考K取值较小时，模型复杂度（容量）高，训练误差会减小，泛化能力减弱；K取值较大时，模型复杂度低，训练误差会增大，泛化能力有一定的提高。如何选择k值，我们可以利用交叉验证不断尝试最优值，从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

2、KNN的局限性
适用数据范围是数值型和标称型，因此多数情况下，knn算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法就比较容易产生误分，且在样本不平衡的时候，对稀有类别的预测准确率十分低。同时在特征量十分多的时候，knn算法的计算量就非常多了。