K-近邻算法(K-nearest neighbor,KNN)
实质:找k个最近的邻居,人多取胜(问题是k值该取多少怎么确定)
三个基本要素:
- k值的选择
- 距离度量
- 分类决策准则
k值的选择
k小,模型复杂,容易过拟合,学习的估计误差大
k大,学习的近似误差会增大
距离度量

来个形象的图表示一下

算法特点
• 优点
①精度高 ②对异常值不敏感 ③无数据输入假定
• 缺点
① 计算复杂度高 ②空间复杂度高
•适用数据范围
数值型和标称型

实现k 近邻法时,主要考虑的问题是如何对训练数据进行快速k 近 邻搜索。这点在特征空间的维数大及训练数据容量大时尤其必要。
kd树是一种对K维空间中的实例点进行存储以便对其进行快速检 索的树形数据结构. Kd树是二叉树,表示对K维空间的一个划分(partition).构造Kd树 相 当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一 系列的k维超矩形区域.Kd树的每个结点对应于一个k维超矩形区域
本文介绍了K-近邻算法(KNN)的基本概念,包括其实质、关键要素如k值选择、距离度量及分类决策准则等,并探讨了算法的特点及其适用的数据类型。此外,还讨论了在高维特征空间中如何通过kd树结构提高k近邻搜索效率。
1259

被折叠的 条评论
为什么被折叠?



