处理并补全缺失值和类型变量的方法

最新推荐文章于 2024-08-16 21:41:44 发布

原创

最新推荐文章于 2024-08-16 21:41:44 发布 · 2.9k 阅读

10 ·

CC 4.0 BY-SA版权

本文详细介绍了一种处理数据集中缺失值的有效方法，包括对数值型和类别型变量的缺失值填充策略。同时，介绍了如何通过一元方差分析评估类别变量对目标变量的影响，并提出了一种将类别变量转换为有序数值变量的创新方法，以此增强模型的预测能力。

缺失值补全和变换

1、首先导入数据，然后进行变量的类型处理

df_tr = train.drop('Id',axis=1)
df_X = df_tr.drop('SalePrice',axis=1)
df_y = df_tr['SalePrice']
quantity = [attr for attr in df_X.columns if df_X.dtypes[attr] != 'object']  # 数值变量集合
quality = [attr for attr in df_X.columns if df_X.dtypes[attr] == 'object']  # 类型变量集合

for c in quality:  # 类型变量缺失值补全
    df_tr[c] = df_tr[c].astype('category')
    if df_tr[c].isnull().any():
        df_tr[c] = df_tr[c].cat.add_categories(['MISSING'])
        df_tr[c] = df_tr[c].fillna('MISSING')

# 连续变量缺失值补全 
quantity_miss_cal = df_tr[quantity].isnull().sum().sort_values(ascending=False)  # 缺失量均在总数据量的10%以下
missing_cols = quantity_miss_cal[quantity_miss_cal>0].index
df_tr[missing_cols] = df_tr[missing_cols].fillna(0.)  # 从这些变量的意义来看，缺失值很可能是取 0
df_tr[missing_cols].isnull().sum()  # 验证缺失值是否都已补全

2、对于离散变量，我们可以进行一元方差分析，获得各个离散变量对房价方差的影响：

# 一元方差分析（类型变量）
from scipy import stats
def an

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

是三水不是泗水

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

标称变量（Categorical Features）或者分类变量（Categorical Features）缺失值填补、详解及实战

data+scenario+science+insight

05-06

1664

标称变量（Categorical Features）或者分类变量（Categorical Features）缺失值填补、详解及实战核心学习函数或者方法： KNeighborsClassifier() np.hstack() np.vstack 有一个分类特征或者标称变量，它包含需要用预测值替换的缺失值。理想的解决方案是训练一个机器学习分类器算法来预测缺失值，通常是k-nearest neighbors (KNN)分类器来进行缺失值得填补。 KNN分类器进行缺失填补： # L..

【机器学习】缺失值的处理方法总结

wzk4869的博客

01-21

4892

【机器学习】缺失值的处理方法总结

参与评论您还未登录，请先登录后发表或查看评论

数据读取及预处理方法-缺失值处理、独热编码、重复值处理、异常值检测

Sun123234的博客

06-19

2623

数据读取及预处理方法-缺失值处理、独热编码、重复值处理、异常值检测

数据缺失值的补齐（代码）

supper_xiao_l的博客

05-02

5176

数据缺失值的补齐（代码）在做时间序列模型的建模以及其他模型的建模时，我们经常会碰到拟合数据存在缺失值（nan）的情况，直接删除存在缺失值的条目大多数情况下不太合理，因此需要对缺失值进行补齐（插值），补齐数据的方法有很多，比如用固定值（0等）代替、平均值、最大值等，下面介绍用平均值进行插值的python代码。思路：用缺失值前后四天的数据的平均值对缺失值进行插值。代码编写思路： 1.如果缺失值当...

分类情况下处理缺失值方法综述

THE_CS_UNIVERSE的博客

01-07

4752

1.删除含有缺失值实例分为只要含有缺失值的即删除和关键值缺失的实例删除 2.基于统计学计算 1）使用均值填充使用在该部分不缺失的实例的均值填充使用同类在该部分不缺失的实例的均值填充 2）回归计算线性回归计算和非线性回归计算 3）Hot and cold deck imputation Hot deck imputation 使用本数据集中在其他不缺失值方面最接近的实例在缺失特征上的值来替代 Cold deck imputation 使用其他数据集的数据，余同Hot deck imputation。

日常学习之：使用均值来填补缺失值的条件

qq_42902997的博客

03-14

7678

文章目录均值填补如何判断正态分布可视化观察卡方检验结论均值填补很多时候，我们的数据会存在缺失值的情况，如果数据量大的情况下我们通常会选择将缺失的数据删除，但是如果数据量比较小，我们则需要对缺失值进行填补均值填补的方式是一种常用的方式，那么均值填补需要具备的条件是什么呢？ 缺失值的数量不能超过总数据的 1/10；如果缺失的数量过大，均值就会失准从而均值填补失效数据要满足正态分布才能用均值进行填补如何判断正态分布可视化观察 import pandas as pd from scipy im

数据缺失补全方法综述

m0_59257547的博客

07-25

1万+

数据缺失是数据分析和机器学习中的一个普遍问题，可能由于多种原因（如传感器故障、数据录入错误、系统故障等）导致。缺失数据不仅会影响模型的性能，还可能导致错误的推断和决策。为了应对这一挑战，研究者们提出了多种数据缺失补全方法。本文综述了几种常见的缺失数据补全技术，包括简单插补、基于模型的插补、机器学习方法和深度学习方法，并讨论了它们的优缺点及适用场景。

离散变量和连续变量缺失值检验和填补，空格表示缺失值的

weixin_45271076的博客

12-01

3050

我们需要对不同类型字段进行转化。并且在此过程中，我们需要检验是否存在采用别的值来表示缺失值的情况。就像此前所说我们通过isnull只能检验出None(Python原生对象)和 np.Nan(numpy/pandas在读取数据文件时文件内部缺失对象的读取后表示形式)对象。但此外我们还需要注意数据集中是否包含采用某符号表示缺失值的情况。r如空格表示缺失值的，首先是离散字段的转化过程：通过对比离散变量的取值水平，我们发现并不存在通过其他值表示缺失值的情况。需要注意的是，如果是连续变量，则无法使用上述方

em模型补缺失值_模型对缺失值的处理

weixin_42124497的博客

01-13

666

模型对缺失值的处理首先从两个角度解释你的困惑：工具包自动处理数据缺失不代表具体的算法可以处理缺失项对于有缺失的数据：以决策树为原型的模型优于依赖距离度量的模型回答中也会介绍树模型，如随机森林 (Random Forest) 和 xgboost 如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。1. 机器学习工具库开发的 “哲学”首先你有这个困惑是因为你直接调用了工具库，比如 Python...

Pandas数据缺失值处理与补全实战指南

针对缺失值的补全策略，文中重点讲解了两种经典方法：使用中位数（median）填补数值型变量的空缺，以及使用众数（mode）填充分类变量。中位数相比均值更能抵抗异常值干扰，因此在数据分布偏斜时更为稳健；而众数则...

缺失值补充

07-24

3361

数学建模（一）

学习数据分析：缺失值处理的正确姿势！

weixin_38754337的博客

09-16

4241

以下文章来源于Coggle数据科学，作者钱魏Way写在前面在进行数据竞赛中，数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享，基本涵...

处理缺失值的三个层级的方法总结

deephub

03-16

6579

我们这里介绍了三个层级的缺失值的处理方法，这三种方法的选择将取决于数据集、缺失数据的数量和分析目标。也需要仔细考虑输入缺失数据对最终结果的潜在影响。处理缺失数据是数据分析中的关键步骤，使用合适的填充方法可以帮助我们解锁隐藏在数据中的见解，而从主题专家那里寻求输入并评估输入数据的质量有助于确保后续分析的有效性。作者：Honzik Jurza。

数据预处理——4种缺失值处理方法

最新发布

dataschool的博客

08-16

671

这段文字主要介绍了处理缺失值的两种方法： **1. 使用最频繁值填充缺失值：**这种方法会将数据集中出现频率最高的类别用于填充缺失值。例如，在文中给出的例子中，square是出现频率最高的类别，因此缺失值会被填充为square。 **2. 使用missing字符串填充缺失值：**这种方法将缺失值视为一个独立的类别，并用missing字符串进行填充。作者认为第二种方法更可取，因为它将缺失值视为一个...

机器学习缺失值处理

chengfulukou的博客

04-06

862

分类：完全随机缺失：当某变量缺失值发生的可能性与其他变量无关也与该变量自身无关，例如婚姻状态的缺失随机缺失：当某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关时，例如配偶姓名的缺失取决于是否有配偶完全非随机缺失：某变量只与自身有关，缺失值依赖于自己，例如高收入人群不愿意提供家庭收入；例如，公司新录用了20名员工，由于6名员工表现较差在试用期内辞退，试用期结束后的表

spss分析方法-缺失值分析（转载）

Laoacai的博客

06-21

2万+

spss分析方法-缺失值分析缺失值可能会导致严重的问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同，则结果将被误导。此外，缺失的数据还可能降低所计算的统计量的精度，因为计算时的信息比原计划的信息要少。另一个问题是，很多统计过程背后的假设都基于完整的个案，而缺失值可能使所需的理论复杂化。下面我们主要从下面四个方面来解说：一、实际应用众所周知，在诸如收入、交通事故等问题的研究中，因为被调查者拒绝回答或者由于调查研究中的损耗，会存在一些未回答的问题。例如在一次人口调查中，1

缺失值的处理方法大总结

weixin_41638083的博客

10-16

1万+

目录一.缺失的原因二.数据缺失的类型三.缺失值的处理方法1. 删除dropna(）缺点2.填补替换缺失值均值填充热卡填补K均值拟合缺失值回归预测极大似然估计多重插补随即森林虚拟变量3.不处理四.总结五.参考资料一.缺失的原因 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样，主要分这几个原因：无...