K近邻算法

最新推荐文章于 2022-07-21 17:32:43 发布

yin_hei

最新推荐文章于 2022-07-21 17:32:43 发布

阅读量381

点赞数

分类专栏：机器学习文章标签： k近邻-python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yin_hei/article/details/78247594

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

k-近邻算法是分类数据最简单有效的算法

基本原理：

k近邻的意思就是在已知样本集合中找到与要测试的点的最近的k个点，选择k个点中出现次数最多的分类作为该点的类别标签。通常k是不大于20的整数，太大了需要很大的计算量。

距离的计算：

距离的计算方法可以自定义，这里常用的欧氏距离作为计算的方式
A，B两间时间的距离为

x = (a 0 - b 0) 2 + (a 1 - b 1) 2 - - - - - - - - - - - - - - - - - - \sqrt

$x =\sqrt{(a0-b0)^2 +(a1-b1)^2 }$
例如，点（0，0，0）和点（1，1，1）之间的距离是

3 \sqrt = （ 0 - 1) 2 + (0 - 1) 2 + （ 0 - 1 ） 2 - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

$\sqrt3 =\sqrt{（0-1)^2 +(0-1)^2+（0-1）^2 }$

归一化处理

在进行距离计算的时候，由于每个维度上的数据范围可能差别很大，就需要对数据进行归一化处理。通常使用的方法就是获取到每个维度的最大值最小值，从而得到数据的范围，然后用当前数据去除数据范围得到【0，1】区间的一个数值，这样得到的是每个维度上数据的影响是一致的。
具体计算流程：
$range=max-min$
$newdata=\frac{olddata-min}{range}$

错误率

在验证分类器的正确性是会用到错误率
错误率就是用分类器给出的错误结果的总数除以测试总数

其中所使用到的代码资源以及详细注释

约会分类：https://code.youkuaiyun.com/snippets/2591922.git
手写识别：https://code.youkuaiyun.com/snippets/2592501.git

k近邻算法的优缺点

优点：精确度高，对异常数据不敏感，无数据输入假定
缺点：计算复杂度高。空间复杂度高
要存储全部已知的样本数据，在每次分类的时候要计算全部的举例，所以时间复杂度和空间复杂度高
适用数据类型：数值型和标称型

所需的测试数据：http://download.youkuaiyun.com/download/yin_hei/10023432

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。