《统计学习方法》 第三章 k近邻法

本文深入探讨了k近邻算法的基本原理,包括k值选择、距离度量、分类决策规则等关键要素。介绍了算法的特点,如精度高、对异常值不敏感,但也存在计算和空间复杂度高的缺点。详细讲解了k值选择对模型复杂度的影响,以及如何通过交叉验证法选取最优k值。同时,对比了线性扫描和kd树方法在k近邻法实现中的优劣。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第三章 k 近邻法

  • k近邻实际上利用训练数据集对特征向量空间进行划分

三个基本要素

  • k值的选择
  • 距离度量:不同的距离度量所确定的最近邻点是不同的
  • 分类决策规则

3.1 k近邻算法特点

  • 优点:精度高、对异常值不敏感、无数据输入假定
  • 缺点:计算复杂度高、空间复杂度高
  • 适用数据范围:数值型和标称型

3.2 k值的选择

  • 选择较小的k值,“学习”的近似误差会减小,但“学习”的估计误差会增大,整体模型变得复杂,容易发生过 拟 合.
  • 如果选择较大的K值,减少学习的估计误差,但缺点是学习的近似误差会增大.K值的增大 就意味着整体的模型变得简单.
  • k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。
  • k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k。

3.3 分类决策规则

  • 多数表决规则
    在这里插入图片描述

3.4 k近邻法的实现

  • 线性扫描:计算非常耗时
  • kd树方法:使用特殊的结构存储训练数据,以减少计算距离的次数。

3.4.1 KD树

  • 是二叉树,表示对K维空间的一个划分

  • 构造kd树相当于不断用垂直于坐标轴的超平面将k维空间划分,构成一系列的k维超矩形区域,kd树的每个结点对应于一个k维超矩形区域

  • 是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值