数据分析与挖掘2——数据预处理

最新推荐文章于 2022-04-19 11:02:20 发布

Mrs.King_UP

最新推荐文章于 2022-04-19 11:02:20 发布

阅读量646

点赞数

分类专栏：数据分析与挖掘文章标签： sklearn 机器学习数据挖掘数据分析

本文链接：https://blog.youkuaiyun.com/qq_38936560/article/details/120352260

版权

数据预处理

1.缺失值处理
2.异常值处理
3.变量转换

1.缺失值处理

查看缺失值

train_data.info()#可以查看特征的确实情况

import missingno as msno
msno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况
msno.bar(train_data)#条形图显示缺失值情况

在这里插入图片描述

删除：适用于数据量较大（记录较多）且缺失比较较小的情形，去掉后对总体影响不大。

缺失值较少，删除包含缺失值的行，train_data.dropna()
删除缺失值大于80%的列，train_data.dropna(thresh=len(data)*0.2, axis=1)
某一列缺失严重，删除某列，train_data.drop(['V0','V1'],axis=1,inplace=True)
丢弃某几列有缺失的行，train_data.dropna(axis=0, subset=['a','b'], inplace=True)
其中，axis=1表示行，inplace=True表示替换掉原始数据

填充：缺失值填充之前，先了解缺失的变量含义。

平均值适用于近似正态分布数据，观测值较为均匀散布均值周围；
中位数适用于偏态分布或者有离群点数据，中位数是更好地代表数据中心趋势；
众数一般用于类别变量，无大小、先后顺序之分。

from scipy import stats
# 均值填充
data['col'] = data['col'].fillna(data['col'].means())
# 中位数填充
data['c

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mrs.King_UP

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

数据挖掘——数据预处理

Lilo_的博客

04-09

7150

《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》 数据挖掘之数据预处理 1. 数据清洗 Data Cleaning 数据清洗：缺失值、噪声数据、离群点、不一致数据（1）对于丢失数据：忽略元组（对象），特别是缺少类标签时删除缺失值比例较大的属性手动补全：麻烦自动插值：均值、众数等（2）对于噪声数据和离群点：识别噪声数据并去除：聚类、回归使用箱线图检测离群点并删除平滑噪音以降低噪声数据的影响：分箱法binning、概念分层分箱法：  按箱平均值平滑  按箱

【数据挖掘】2、数据预处理

呆呆的猫的博客

02-28

1533

数据预处理的意义和方法：主成分分析和线性判别分析

参与评论您还未登录，请先登录后发表或查看评论

Python数据分析与挖掘进阶篇3——数据的预处理（清洗、集成、变换）附实例！

别看我只是一只羊

11-28

3949

初探Python数据分析day4 自我介绍一下，我是一名大四应届毕业生对数据挖掘方面很感兴趣，最近开始着手系统学习，在这里与大家分享我的学习笔记与心得，如果不足或错误请大家指出，感谢。一、数据的预处理 在数据挖掘中，海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至...

python-数据探索

weixin_42434645的博客

08-01

366

import pandas as pd # 数据加载 train_data = pd.read_csv('./Titanic_Data/train.csv') test_data = pd.read_csv('./Titanic_Data/test.csv') # 数据探索 #info() 了解数据表的基本情况：行数、列数、每列的数据类型、数据完整度 print(train_data.info(...

动手学数据分析_task2

Ninjasone的博客

06-17

328

第一部分：数据清洗及特征处理通常来说我们拿到的数据是不干净的，所谓的不干净就是数据中有缺失值，有一些异常点，需要经过一定的处理才能继续做后面的分析。所以拿到数据的第一步就是进行数据的清洗。本章将学习缺失值、字符串和数据转换等。导入numpy、pandas库 import numpy as np import pandas as pd 加载数据 train_data = pd.read_csv('train.csv') train_data 2.1 缺失值观察与处理拿到的数据有许多的缺失值，比如C

数据处理中遇到的函数

weixin_43949714的博客

07-15

775

1.读数据 test_data=pd.read_csv(‘D:/dataset/Titanic/test.csv’) 2.看数据 train_data.head()看前五行 train_data.info()看统计 3.看哪些列有null train_data.isnull().sum() 4.填充缺失值 train_data[‘Age’].fillna(train_data[‘Age’].mean(), inplace=True)(这里是填充平均值) 5.改变值（比如’male’变成0) train_da

python数据分析与挖掘实战————银行分控模型（几种算法模型的比较）.doc

07-13

在Python数据分析与挖掘实战中，构建银行风控模型是一项重要的任务，涉及到多种算法的比较和选择。本案例中，主要探讨了神经网络算法和逻辑回归模型的应用，并通过代码展示了这两种算法在处理银行贷款违约预测问题上...

精选_python数据分析（4）——数据预处理（上）_源码打包

03-09

总的来说，Python在数据预处理中的应用广泛且高效，结合Pandas、NumPy和其他相关库，我们可以对数据进行有效的清洗和转换，为后续的数据分析和挖掘奠定坚实的基础。在实际工作中，理解并掌握这些技术是成为一名优秀...

数据挖掘互评作业1：数据探索性分析与数据预处理.zip

最新发布

03-03

在本项目“数据挖掘互评作业1：数据探索性分析与数据预处理”中，我们将深入探讨人工智能领域中的核心步骤——数据预处理。这个过程是机器学习项目的基础，因为高质量的数据是模型性能的关键。我们将使用Python编程...

pandas的数据清洗的数据集下载_数据分析之Pandas操作(1)

weixin_39964660的博客

11-23

674

Pandas是一款基于Python的快速、强大、灵活、易用的开源数据分析和操作工具。Pandas最新发布的官方文档可以在https://pandas.pydata.org/docs/pandas.pdf上下载，官方文档详细的介绍了每个Pandas的使用方法。如果想精通Pandas，全面仔细阅读官方文档一定是最有效的方法。然而，鉴于个人时间精力有限，大多数人可能无法完整阅读官方文档，但是这...

零基础数据挖掘入门系列(二) - 数据的探索性（EDA）分析

Miracle8070

03-23

4648

1. 写在前面零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想，该系列笔记使用理论结合实践的方式，整理数据挖掘相关知识，提升在实际场景中的数据分析、数据清洗，特征工程、建模调参和模型融合等技能。所以这个系列笔记共五篇，也分别从上面五方面进行整理学习，既是希望能对知识从实战的角度串联回忆，加强动手能力的锻炼，也希望这五篇笔记能够帮助到更多喜欢数据挖掘的小伙...

scikit-learn中一种便捷可靠的缺失值填充方法：KNNImputer

sinat_33264502的博客

09-01

1万+

在数据挖掘工作中，处理样本中的缺失值是必不可少的一步。其中对于缺失值插补方法的选择至关重要，因为它会对最后模型拟合的效果产生重要影响。在2019年底，scikit-learn发布了0.22版本，此次版本除了修复之前的一些bug外，还更新了很多新功能，对于数据挖掘人员来说更加好用了。其中我发现了一个新增的非常好用的缺失值插补方法：KNNImputer。这个基于KNN算法的新方法使得我们现在可以更便捷地处理缺失值，并且与直接用均值、中位数相比更为可靠。利用“近朱者赤”的KNN算法原理，这种插补方法借助...

【机器学习】sklearn中使用k近邻来完成缺失值的填补(KNNImputer)

鹏啊鹏

04-19

9600

文章目录1 方法介绍2 常用参数3 示例示例1：处理np.nan示例2：处理None值示例3：处理numpy中的0数据示例4：添加权重 1 方法介绍 class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights='uniform', metric='nan_euclidean', copy=True, add_indicator=False) 使用k近邻来完成缺失值的估算，用于对缺失值如None的填补。每个样本

常用特征工程方法总结

小白学视觉

12-16

1566

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达摘要：对于数据挖掘项目，本文将学习应该从哪些角度做特征工程？从哪些角度做数据清洗，如何对特征进行增删，如何使用PCA降...

缺失值-删除缺失值行、列，以及特定的行、列

Chloris_的博客

09-30

1万+

@缺失值处理 df.isnull()#是缺失值返回True，否则范围False df.isnull().sum()#返回每列包含的缺失值的个数 df.dropna()#直接删除含有缺失值的行 df.dropna(axis = 1)#直接删除含有缺失值的列 df.dropna(how = ‘all’)#只删除全是缺失值的行 df.dropna(thresh = 4)#保留至少有4个缺失值的行 df.dropna(subset = [‘C’])#删除含有缺失值的特定的列 dddf = ddf.dropna(su

数据挖掘 之数据预处理（《Python数据分析与挖掘实战》）

我的AI笔记

03-31

2526

在数据挖掘中，原始数据存在大量不完整、有异常的数据，严重影响建模的执行效率，甚至会导致结果偏差，因此非常有必要进行数据清洗，数据清洗完成后接着或同时进行数据集成、转换、规约等一系列处理，这个过程就是数据预处理。总而言之，数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。一、数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理...

MATLAB数据分析与挖掘 --数据预处理篇