1、基本思想:给定一个测试样本,计算它与训练集中每个对象的距离,圈定距离最近的k个训练对象作为其最近邻,然后使用这k个最近邻中出现次数最多的类标号作为测试样本的类标号值。
每个样本可以表示为(x,x,x,x,....y)的形式,其中x表示样本的属性,y表示样本的类标号。
2、特点:
(1)不需要事先对训练数据建立样本分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测。
(2)基于局部信息(k最近邻)进行决策,因此最近邻k很小时,对噪音非常敏感。
3、关键:
(1)k值的选取
(2)寻找未知样本时,必须计算未知样本与预测集中样本的距离,应根据具体应用情况选择合适的度量方法。如:二维数据集可用欧几里得或曼哈顿距离来度量,但是对于文档的分类,由于数据的维度非常高,就不能使用欧几里得距离,通常使用余弦相似度来计算两个文档之间的距离。
本文介绍了K近邻(KNN)算法的基本思想与特点,详细解释了如何通过计算测试样本与训练集中每个对象的距离来确定其类别。此外还讨论了算法的关键因素,包括k值的选择及距离度量的方法。
1475

被折叠的 条评论
为什么被折叠?



