第三章 k 近邻法
- k近邻实际上利用训练数据集对特征向量空间进行划分
三个基本要素
- k值的选择
- 距离度量:不同的距离度量所确定的最近邻点是不同的
- 分类决策规则
3.1 k近邻算法特点
- 优点:精度高、对异常值不敏感、无数据输入假定
- 缺点:计算复杂度高、空间复杂度高
- 适用数据范围:数值型和标称型
3.2 k值的选择
- 选择较小的k值,“学习”的近似误差会减小,但“学习”的估计误差会增大,整体模型变得复杂,容易发生过 拟 合.
- 如果选择较大的K值,减少学习的估计误差,但缺点是学习的近似误差会增大.K值的增大 就意味着整体的模型变得简单.
- k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。
- k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k。
3.3 分类决策规则
- 多数表决规则
3.4 k近邻法的实现
- 线性扫描:计算非常耗时
- kd树方法:使用特殊的结构存储训练数据,以减少计算距离的次数。
3.4.1 KD树
-
是二叉树,表示对K维空间的一个划分
-
构造kd树相当于不断用垂直于坐标轴的超平面将k维空间划分,构成一系列的k维超矩形区域,kd树的每个结点对应于一个k维超矩形区域
-
是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构,