数模数据中缺失值补充问题

KNN算法与均值插补：原理、优劣与应用

最新推荐文章于 2025-03-16 22:18:25 发布

原创最新推荐文章于 2025-03-16 22:18:25 发布 · 2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#算法

数模专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了KNN（K-最近邻）算法的原理，包括其流程、K值确定方法以及距离度量的选择。同时，讨论了算法的优缺点，如简单有效但计算量大。另外，还提到了均值插补方法，用于处理数据缺失值，根据距离是否可度量选择平均值或众数填充。

类型一：KNN（k-nearest neighbor）算法

一．KNN（k-nearest neighbor）算法的具体思想，流程及优劣
k指的是离此点最近的k个点，用这k个点的值估计此点的缺失值（常用平均值法）。
流程：
1）计算已知类别数据集中的点与当前点之间的距离（欧式距离）
2）按距离递增次序排序
3）选取与当前点距离最小的k个点
4）统计前k个点所在的类别出现的频率
5）返回前k个点出现频率最高的类别作为当前点的预测分类

二．K值确定：
使用十重交叉验证：在得出k=1，2……的填好缺失值的数据后，对于每一个k对应的数据集，将数据集分成十份，其中一份轮流作验证集，其余九份作训练集，从而得出在此k下，KNN算法的平均准确率，再对不同的k对应的平均准确率大小进行比较从而得出k的优劣。

此k值取法存在的问题：此方法中得出了好几个k对应的填好缺失值的数据集，先不论交叉验证的复杂度，单单处理某个k值条件下的缺失值就已经相当复杂了，何况是处理好几个k对应的缺失值数据集。

三．距离的选择：
（1）一般选择欧式距离：
欧式距离的优势：坐标轴正交旋转时，欧式距离是保持不变的
使用欧式距离时需要注意的：变量量纲不同或测量值范围相差悬殊，应该先进行数据标准化，再计算。

（2）也常使用曼哈顿距离：两个样本同一特征分量值差值的绝对值之和

其中x，y是点，，（i=1,2……）是两点的分量。
其优势是简化了计算，消除在计算欧氏距离开平方过程中取近似值而带来的误差

四．算法的优劣性
优势：
1、简单有效
2、重新训练代价低
3、算法复杂度低
4、适合类域交叉样本
5、适用大样本自动分类
劣势:
1、类别分类不标准化
2、输出可解释性不强
3、计算量较大，在分析大型数据集时会变得非常耗时，因为它会在整个数据集中搜索相似数据点。
4、在高维数据集中，最近与最远邻居之间的差别非常小，因此KNN的准确性会降低。