本部分主要为机器学习理论入门_K近邻法(KNN),书籍参考 “ 统计学习方法(第二版)”。
学习目标: 了解k近邻算法的基本概念、原理、应用;熟悉k近邻算法重要影响要素;熟悉kd树原理与优化应用。
开始本算法之前我们首先直观的感受一下本算法的具体场景。
首先回顾一下感知机算法:感知机是二类分类的线性分类模型,是对应于特征空间中将实例划分为正负两类的分离超平面。有对比就有差距了,超过两类的数据如何处理呢,那么就有了K近邻算法:kNN是一种基本的分类与回归方法,可以适用与多类分组,当然了KNN不仅局限于分类问题。
一、K近邻算法原理
1.1 基本概念
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说没有训练阶段,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。
k近邻算法是一种基本分类和回归方法,通过测量不同特征值之间的距离进