数模数据中缺失值补充问题

KNN算法与均值插补:原理、优劣与应用
本文详细介绍了KNN(K-最近邻)算法的原理,包括其流程、K值确定方法以及距离度量的选择。同时,讨论了算法的优缺点,如简单有效但计算量大。另外,还提到了均值插补方法,用于处理数据缺失值,根据距离是否可度量选择平均值或众数填充。

类型一:KNN(k-nearest neighbor)算法

一.KNN(k-nearest neighbor)算法的具体思想,流程及优劣
k指的是离此点最近的k个点,用这k个点的值估计此点的缺失值(常用平均值法)。
流程:
1) 计算已知类别数据集中的点与当前点之间的距离(欧式距离)
2) 按距离递增次序排序
3) 选取与当前点距离最小的k个点
4) 统计前k个点所在的类别出现的频率
5) 返回前k个点出现频率最高的类别作为当前点的预测分类

二.K值确定:
使用十重交叉验证:在得出k=1,2……的填好缺失值的数据后,对于每一个k对应的数据集,将数据集分成十份,其中一份轮流作验证集,其余九份作训练集,从而得出在此k下,KNN算法的平均准确率,再对不同的k对应的平均准确率大小进行比较从而得出k的优劣。

此k值取法存在的问题:此方法中得出了好几个k对应的填好缺失值的数据集,先不论交叉验证的复杂度,单单处理某个k值条件下的缺失值就已经相当复杂了,何况是处理好几个k对应的缺失值数据集。

三.距离的选择:
(1)一般选择欧式距离:
欧式距离的优势:坐标轴正交旋转时,欧式距离是保持不变的
使用欧式距离时需要注意的:变量量纲不同或测量值范围相差悬殊,应该先进行数据标准化,再计算。

(2)也常使用曼哈顿距离:两个样本同一特征分量值差值的绝对值之和

其中x,y是点,,(i=1,2……)是两点的分量。
其优势是简化了计算,消除在计算欧氏距离开平方过程中取近似值而带来的误差

四.算法的优劣性
优势:
1、简单有效
2、重新训练代价低
3、算法复杂度低
4、适合类域交叉样本
5、适用大样本自动分类
劣势:
1、类别分类不标准化
2、输出可解释性不强
3、计算量较大,在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。
4、在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

类型二:均值插补

如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值;如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。

数据清洗是数据分析过程中的一项重要步骤,它涉及到检查和处理原始数据中的错误、不一致性和缺失值。当数据集中存在缺失值时,需要采取适当的方式来填补它们,因为缺失值可能会对分析结果产生偏差或影响模型的性能。 以下是几种常见的缺失值补充策略: 1. 删除法(Dropna):最直接的方式是删除包含缺失值的记录或整个列。但如果缺失值占比较大,这种方法可能导致信息损失过多。 2. 插值法(Imputation):这是一种基于已有数据推测缺失值的方法。常用的插补方法有: - 均值/中位数填充:用该特征所有非缺失值的平均数或中位数替换缺失值。 - 众数填充:对于分类变量,可以用最常见的类别值替换。 - 使用相邻值:比如向前或向后填充,或者使用KNN(K近邻)算法找到相似的数据点进行填充。 - 使用回归预测:利用其他特征构建预测模型,然后预测缺失值。 3. 预测模型:有时可以建立一个预测模型专门针对缺失值,比如线性回归、随机森林或机器学习模型。 4. 模型特定填充:对于时间序列数据,可以选择使用最近的一段时间内的数据填充;对于某些专业领域,特定的专业规则也可以用来估计缺失值。 选择哪种方法取决于数据集的特点、缺失值的数量以及分析的目的。在实际操作中,常常会尝试多种方法,比较其效果后再做决策。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值