一、K-近邻算法(即KNN算法)定义与思想
定义
k-近邻算法是一种基本分类和回归的方法;即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。(简单的比喻就是“少数服从多数”)。
思想
k-近邻算法的基本思想是基于已有的样本数据集,对新的未知样本进行预测。对于一个未知的数据样本,k-近邻算法会在已有的样本数据集中找到与样本距离最近的k个数据点,然后选择这k个数据点中出现次数最多的标签作为最后的预测结果。
二、KNN算法中常用的距离指标
欧几里得距离
它也被称为L2范数距离。欧几里得距离是我们在平面几何中最常用的距离计算方法,即两点之间的直线距离。在n维空间中,两点之间的欧几里得距离计算公式为:
d = sqrt((x2-x1)^2 + (y2-y1)^2)
曼哈顿距离
它也被称为L1范数距离。曼哈顿距离是计算两点在一个网格上的路径距离,与上述的直线距离不同,它只允许沿着网格的水平和垂直方向移动。在n维空间中,两点 之间的曼哈顿距离计算公式为:
d = |x2-x1| + |y2-y1|
三、KNN算法具体实现案例
基本思路:
本次实验我利用已有数据集对未知的喜欢程度进行预测
数据集:

代码
# 通过输入一个人的三维特征,进行分类输出
def classifyPerson():
#输出结果
resultList = ['讨厌','有些喜欢','非常喜欢']
#三维特征用户输入
ffMiles = float(input("每年获得的飞行常客里程数:"))
precentTats = float(input("玩视频游戏所耗时间百分比:"))
iceCream = float(input("每周消费的冰激淋公升数:"))
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
#训练集归一化
normMat, ranges, minVals = autoNorm(datingDataMat)
#生成NumPy数组,测试集
#inArr = np.array([precentTats, ffMiles, iceCream])
inArr = np.array([ffMiles, precentTats, iceCream])
#测试集归一化
norminArr = (inArr - minVals) / ranges
#返回分类结果
classifierResult = classify0(norminArr, normMat, datingLabels, 3)
#打印结果
print("你可能%s这个人" % (resultList[classifierResult-1]))

输入4999
20
3结果输出非常喜欢
总结:
问题总结
1、显示gbk编码器无法解码字节其字节序列为非法多字序列;

解决方法 :encoding='gb18030',errors = 'ignore'(利用ignore忽视这些特殊字符)
2、激活pytorch遇到报错usage: conda-script.py [-h] [--no-plugins] [-V] COMMAND ... conda-script.py: error: arg
解决方法:改用activate pytorch命令来激活pytorch
实验总结
1、K的取值
knn实验中有一个关键点:k k的取值很大程度决定了实例的准确性,其实k值是KNN算法的一个超参数,k的含义即参考K取值较小时,模型复杂度(容量)高,训练误差会减小,泛化能力减弱;K取值较大时,模型复杂度低,训练误差会增大,泛化能力有一定的提高。如何选择k值,我们可以利用交叉验证不断尝试最优值,从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。
2、KNN的局限性
适用数据范围是数值型和标称型,因此多数情况下,knn算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法就比较容易产生误分,且在样本不平衡的时候,对稀有类别的预测准确率十分低。同时在特征量十分多的时候,knn算法的计算量就非常多了。
参考文献
激活pytorch遇到报错usage: conda-script.py [-h] [--no-plugins] [-V] COMMAND ... conda-script.py: error: arg-优快云博客【Python】matplotlib库的安装和简单使用_matplotlib安装_qilei2010的博客-优快云博客欧式距离与曼哈顿距离的区别以及曼哈顿距离的应用_曼哈顿距离和欧式距离-优快云博客
本文介绍了K-近邻算法的基本概念、常用距离指标(欧几里得和曼哈顿距离)、实现案例,以及KNN在实际中的应用,包括如何选择超参数k和算法的局限性。还提到了在使用PyTorch时遇到的问题及解决方案。
4196

被折叠的 条评论
为什么被折叠?



