《机器学习实战》-KNN算法心得

最新推荐文章于 2024-04-01 13:43:03 发布

starcosmos

最新推荐文章于 2024-04-01 13:43:03 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：学习心得《机器学习实战》文章标签： KNN 机器学习实战

本文链接：https://blog.youkuaiyun.com/starcosmos/article/details/89307927

本文是《机器学习实战》中KNN算法的心得体会，介绍了KNN算法的基本原理，包括如何计算距离、如何处理属性值以及算法的时间复杂度分析。通过实例说明KNN并非特征提取算法，其分类效果受K值影响，高K值可能导致错误率增加，且计算过程耗时。此外，讨论了属性线性相关性对KNN算法的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

@[TOC]《机器学习实战》-KNN算法心得)

准备开始在优快云上用博客记录学习心得，同时也分享一些其中自己产生的脑洞（想法）
PS：第一次在优快云上写，还不习惯这个编写方式

在写之前说一下，因为书里很多代码在python3以后都会编译错误，所以关于《机器学习实战》的总结，不会具体分析代码，代码问题在overstackflow或者matplotlib官网都能搜索到。

KNN是处理分类问题的，而且是监督的，即需要预先认为的给出一些已知类别的数据供KNN计算。其中对一个物体，需要人为的分成多个属性，并求出每个属性的值。它对属性的值要求可以是连续也可以是离散的。

书里介绍的KNN算法算是全书中最好理解的一部分了。其核心理论是将类别的多个属性看做是多维空间的参数，将已经识别的类数据库根据属性的值放置在这个多维空间中，然后用未知类别物体的属性值与已知的各个点进行距离计算（sqrt（x1^2+x22+x3^2……）），离得最近的点的类别就是这个未知类别物体的类别，当然，考虑到可能存在的误差，它取了前K个最近距离点，统计其中出现的类别次数，并返回出现次数最多的类别。

关于空间距离的说法，在很多机器学习的论文里，都会提到多维或者超维或者降维的问题，因为当初学线性代数的时候一上来就是行列式，所以以前没理解，后来看了一本《introduce to Linear algebra》（强烈推荐），上面一开始介绍时将[1,2,3]T介绍为三维空间中的指向从（0,0,0）点指向(1,2,3)的一个向量，因此上文所说的多维空间距离就是因为KNN把每个属性看做一个坐标系，值就是这个类别点在这个坐标系上的坐标，才有了距离一说。

另外，因为每个属性的值有大有小，所以在数据上预先将所以数据按照：（对应属性的值-此属性的最小值）/（此属性的最大值-最小值）的方式都归一化到[0,1]的范围内。

流程如下图所示：