机器学习面试题之KNN

最新推荐文章于 2025-06-03 21:41:00 发布

原创

最新推荐文章于 2025-06-03 21:41:00 发布 · 3.3k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

机器学习面试题之KNN——k近邻

1. 简述一下KNN算法的原理
KNN算法利用训练数据集对特征向量空间进行划分。KNN算法的核心思想是在一个含未知样本的空间，可以根据样本最近的k个样本的数据类型来确定未知样本的数据类型。
该算法涉及的3个主要因素是：k值选择，距离度量，分类决策。

2. 如何理解kNN中的k的取值？

选取较小的k值时，相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例很相近的样本才会对预测结果起作用。但是，“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感。如果邻近的实例点恰好是噪声，预测就会出错。换句话说，k值的减小就意味着整体模型会变得复杂，容易过拟合。
选取较大的k值是，相当于用较大的领域中的训练实例进行预测，其优点是可以减少学习的估计误差。但缺点是学习的近似误差会增大，这时与输入实例较远的样本也对预测结果起作用，容易使预测发生错误。k值的增大就意味着整体的模型变得简单。
在应用中，k值一般取比较小的值，并采用交叉验证法进行调优。

3. 在kNN的样本搜索中，如何进行高效的匹配查找？

线性扫描(数据多时，效率低)
构建数据索引——Clipping和Overlapping两种。前者划分的空间没有重叠，如k-d树；后者划分的空间相互交叠，如R树。（对R树了解很少，可以之后再去了解）

4. KNN算法有哪些优点和缺点？
优点：算法思想较简单，既可以做分类也可以做回归；可以用于非线性分类/回归；训练时间复杂度为O(n)；准确率高，对数据没有假设，对离群点不敏感。
缺点：计算量大；存在类别不平衡问题；需要大量的内存，空间复杂度高。

5. 不平衡的样本可以给KNN的预测结果造成哪些问题，有没有什么好的解决方式？
输入实例的K邻近点中，大数量类别

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。