《机器学习实战》-KNN算法心得

本文是《机器学习实战》中KNN算法的心得体会,介绍了KNN算法的基本原理,包括如何计算距离、如何处理属性值以及算法的时间复杂度分析。通过实例说明KNN并非特征提取算法,其分类效果受K值影响,高K值可能导致错误率增加,且计算过程耗时。此外,讨论了属性线性相关性对KNN算法的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@[TOC]《机器学习实战》-KNN算法心得)

准备开始在优快云上用博客记录学习心得,同时也分享一些其中自己产生的脑洞(想法)
PS:第一次在优快云上写,还不习惯这个编写方式

在写之前说一下,因为书里很多代码在python3以后都会编译错误,所以关于《机器学习实战》的总结,不会具体分析代码,代码问题在overstackflow或者matplotlib官网都能搜索到。

KNN是处理分类问题的,而且是监督的,即需要预先认为的给出一些已知类别的数据供KNN计算。其中对一个物体,需要人为的分成多个属性,并求出每个属性的值。它对属性的值要求可以是连续也可以是离散的

书里介绍的KNN算法算是全书中最好理解的一部分了。其核心理论是将类别的多个属性看做是多维空间的参数,将已经识别的类数据库根据属性的值放置在这个多维空间中,然后用未知类别物体的属性值与已知的各个点进行距离计算(sqrt(x12+x22+x3^2……)),离得最近的点的类别就是这个未知类别物体的类别,当然,考虑到可能存在的误差,它取了前K个最近距离点,统计其中出现的类别次数,并返回出现次数最多的类别。

关于空间距离的说法,在很多机器学习的论文里,都会提到多维或者超维或者降维的问题,因为当初学线性代数的时候一上来就是行列式,所以以前没理解,后来看了一本《introduce to Linear algebra》(强烈推荐),上面一开始介绍时将[1,2,3]T介绍为三维空间中的指向从(0,0,0)点指向(1,2,3)的一个向量,因此上文所说的多维空间距离就是因为KNN把每个属性看做一个坐标系,值就是这个类别点在这个坐标系上的坐标,才有了距离一说。

另外,因为每个属性的值有大有小,所以在数据上预先将所以数据按照:(对应属性的值-此属性的最小值)/(此属性的最大值-最小值)的方式都归一化到[0,1]的范围内。

流程如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值