[Sklearn应用] Preprocessing data （四）missing values 缺失值处理

最新推荐文章于 2025-04-10 09:20:54 发布

原创

最新推荐文章于 2025-04-10 09:20:54 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#特征选择 #缺失值 #特征工程

在数据预处理中，缺失值处理是重要一环。直接删除会影响数据完整性，而合理填充能保持数据原有结构。通常不建议用平均值填充，而是采用特定值如"-999"或"-1"。但使用"-1"时需谨慎，因为标准化可能产生相似数值。此外，无穷大和无穷小值应转换为NaN后再处理。

此内容在sklearn官网地址： http://scikit-learn.org/stable/modules/preprocessing.html#
sklearn版本：0.18.2

缺失值不能直接删除。缺失值有其存在原因，删除后不仅使可用的数据变少，也会使原本的数据发生改变，影响结果准确性。

from sklearn.preprocessing import Imputer
im = Imputer()          # 默认参数 missing_values="NaN",strategy="mean"
						# strategy还可用"median"、"most_frequent"
im.fit(X)         
im.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

scxyz_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据预处理（sklearn.preprocessing）

平凡简单的执着

03-11

1万+

前言数据预处理的工具有许多，在我看来主要有两种：pandas数据预处理和scikit-learn中的sklearn.preprocessing数据预处理。前面更新的博客中，我已有具体的根据pandas来对数据进行预处理，原文请点击这里。其中主要知识点包括一下几个方面：数据的集成：merge、concat、join、combine_first；数据类型转换：字符串处理（正则表达式）、数据类...

特征与处理-sklearn归一化、标准化、缺失值处理

liyunyang2000的博客

02-22

754

特征与处理-sklearn归一化、标准化、缺失值处理

参与评论您还未登录，请先登录后发表或查看评论

用sklearn.preprocessing做数据预处理（五）——缺失数据

weixin_44530236的博客

03-02

671

在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的。但如果有缺失数据是通过NAN或者空值来表示的话，就无法识别与计算了。要弥补缺失值可以使用均值、中位数、众数等。Imputer这个类可以实现。 import numpy as np from sklearn.preprocessing import Imputer imp = Imputer(missing_valu...

缺失值处理（Missing Values）

weixin_30732825的博客

08-22

2879

什么是缺失值？缺失值指数据集中某些变量的值有缺少的情况，缺失值也被称为NA（not available）值。在pandas里使用浮点值NaN（Not a Number）表示浮点数和非浮点数组中的缺失值，用NaT表示时间序列中的缺失值，此外python内置的None值也会被当作是缺失值。需要注意的是，有些缺失值也会以其他形式出现，比如说用0或无穷大（inf）表示。 缺失值产生的原因...

R语言缺失值 missing values

热门推荐

santiagozhang的博客

02-23

1万+

R语言缺失值 有的情况下，数据集里面有的数据值是不知道的，unknown values。对于数据分析来说，一个常见的功能就是缺失值的处理。R语言用NA表示缺失值，not available的意思。 1. 缺失值例子数据文件：读入R： > df name age grade 1 Lily 23 78 2 <NA> 24 86 3 Bob 25 8...

缺失数据(missing data)的处理（理论）

weixin_46847902的博客

05-01

1万+

缺失值的分类以及缺失值的处理

104 缺失值预处理

bea_tree的博客

04-07

1091

104 缺失值预处理http://scikit-learn.org/stable/auto_examples/missing_values.html#example-missing-values-py 对于缺失值的处理，一定程度上能够决定算法模型的表现，常用的缺失值的处理方法有平均值，中间值，最常用的值等等，这三种分别对应着sklearn里preprocessing。imputer的三种处理策略。

sklearn 特征预处理，归一化和标准化，缺失值处理

ck784101777的博客

07-05

3396

目录 1.什么是特征处理 2.不同的特征数据处理方式 3.归一化公式公式讲解 sklearn 归一化实例归一化的运用场景归一化的缺点——异常点 4.标准化公式公式分析 sklearn 标准化实例标准化的意义 缺失值处理方法参考资料 1.什么是特征处理通过特点的统计法（数学方法），将数据转换成算法要求的数据 2.不同的特征数据处理方式数值型数据(实数型)，通过标准缩放进行处理，标准缩放简单来讲就是将数字大小缩小化（偏0），如100缩小到0~1之间.

机器学习——数据清洗（缺失值处理、异常值处理、数据标准化）

ZhShy

03-18

1089

在数据处理与分析流程中，数据清洗占据着极为关键的地位。原始数据往往充斥着各种问题，如缺失值、异常值，且数据的尺度和分布也可能存在差异，这些问题会严重影响后续数据分析和机器学习模型的准确性与性能。因此，有效的数据清洗操作必不可少，它能够提升数据质量，为挖掘数据价值奠定坚实基础。接下来，我们将深入探讨数据清洗中的缺失值处理、异常值处理以及数据标准化这三个重要方面。

sklearn快速入门教程：缺失值

Ryan-Yu的博客

08-11

1083

、

数据预处理-用sklearn解决数据中出现缺失值

weixin_41798592的博客

09-25

1204

机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。在这里，我们使用从泰坦尼克号提取出来的数据，这个数据有三个特征，一个数值型，两个字符型，标签也是字符型。从这里开始，我们就使用这个数据给大家作为例...

数据预处理之缺失值处理（sklearn、pandas）

weixin_60200880的博客

09-22

1084

数据预处理之缺失值处理（sklearn、pandas）

【原】关于使用Sklearn进行数据预处理 —— 缺失值（Missing Value）处理

weixin_34122548的博客

12-09

1939

关于缺失值（missing value）的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理，主要是应用Imputer类进行处理。首先需要说明的是，numpy的数组中可以使用np.nan/np.NaN（Not A Number）来代替缺失值，对于数组中是否存在nan可以使用np.isnan()来判定。使用type(np.nan)或者type(np.NaN)可以发现改值...

【机器学习|Python】sklearn中的数据预处理方法

weixin_68789096的博客

08-26

2243

本篇文章主要讲解Python的sklearn库中常用的数据预处理方法，主要介绍工具中的内容，即该库中的相关方法包含的常用接口和基本使用，并不适合手把手入门学习，此外将涉及更少的原理和使用情况说明。

SAS: 缺失值 missing values简介

匿_名_用_户的专栏

09-02

1万+

SAS中当一个变量的值未定义的时候，可以认为是缺失值， missing values。表现如果是数值型，则用英文句号表示缺失值，如果是字符型，则用空白表示缺失值。 缺失值判断可以用missing()函数判断是否是缺失值，函数返回1表示是缺失值，示例如下： 缺失值的比较 缺失值比正常的字符或者数字都小，可以用于比较，示例如下： 缺失值的运算直接用运算符计算带有缺失值的变量，结果仍为缺失值，不过sum函数中的参数中可以有缺失值，不影响sum的结果。示例如下...

关于sklearn如何处理缺失数据？

2401_85763803的博客

06-18

1076

简称sklearn，是一个开源的机器学习库，用于Python编程语言。它建立在NumPy、SciPy和matplotlib这些科学计算库之上，提供了一系列强大的工具，用于机器学习和统计建模，包括分类、回归、聚类和降维等。广泛应用于学术研究、教育和商业项目中，是数据科学家和机器学习工程师的重要工具之一。

【skLearn 练习】随机森林回归填补缺失值

懂得一千零一种,赋予你失败的方法！

02-11

4111

文章目录随机森林回归填补缺失值导入需要的库导入数据集随机森林回归填补缺失值 我们从现实中收集的数据，几乎不可能是完美的，往往都会有一些缺失值，很多人选择的是直接将含有缺失值的样本直接删除，这是一种方式，但是有时候填补缺失值会比直接丢弃样本效果更好，即使我们不知道缺失值的真实数据。在sklearn.impute.SimpleImputer模块中可以轻松地将均值、中值、或者其它常用的数值来对空值进行填补。下面我们将对波士顿房价数据集进行均值、0、随机森林回归来进行缺失值填补，并验证各种情况下的拟合效果..

【scikit-learn基础】--『预处理』之 缺失值处理