核心思想
K最近邻(k-Nearest Neighbor,KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。即 在一个含未知样本的空间,可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型
- 该算法涉及3个主要因素:训练集、距离与相似的衡量、k的大小;主要考虑因素:距离与相似度;
用途
可被用于多分类, 也可被用于回归问题(即通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,作为预测值)
算法描述
简单来说就是计算输入数据D与所有样本点的距离(该距离为两点间欧式距离: ∑ ( X i − Y i ) 2 2 . \sum\frac{(Xi - Yi)^2}{2}. ∑2