算法核心:
对于一个样本来说,选择K个离其最近的样本。这k个样本都有自己的类别,在这k个之中,哪个种类最多,则该样本属于哪一类别。
(一般k自己取一个较小的值)
算法实现流程(以下我们将样本简称为点):
首先:计算数据集中已知类的点与我们选择要识别的点的距离。
然后:按距离以递增的次序排列。
紧接:自己定一个k值,然后选取与要识别的点的距离最小的k个点。
其次:统计k个点中,各个类别出现的概率。
最后:取概率最高的类别作为要识别的点的类别。
(样本的维度:一般而言样本的维度其实就是其特征的多少)
准备工作:
如何计算距离:
补充知识点(以下为我们常用的知识点):
(x,y皆为样本,或者说是样本的特征向量,特征的值相减的时候是对应的)

本文介绍了K近邻算法的基本概念,包括其工作原理、步骤,以及常用的几种距离计算方法。通过实例演示如何使用欧几里得距离法处理电影数据,预测未知样本的类别。
最低0.47元/天 解锁文章
359

被折叠的 条评论
为什么被折叠?



