Task 2 组队学习之数据清洗及特征处理

最新推荐文章于 2024-10-21 16:41:28 发布

秃头小菜鸟

最新推荐文章于 2024-10-21 16:41:28 发布

阅读量366

点赞数

分类专栏： DataWhale组队学习文章标签：数据分析正则表达式 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38694228/article/details/108133282

版权

本文介绍了数据清洗的重要步骤，包括缺失值和重复值的处理，以及特征的观察与处理。针对年龄进行分箱，对文本变量进行转换，并从Name特征中提取Titles。通过Python的pandas库和正则表达式进行数据预处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二章：数据清洗及特征处理

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的亚子

2.1 缺失值观察与处理

我们拿到的数据经常会有很多缺失值，比如我们可以看到Cabin列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢

在这里插入图片描述

2.1.1 任务一：缺失值观察

请查看每个特征缺失值个数
方法一:

 Train_data.info()

在这里插入图片描述
我们可以看到每列应该有891个数据，可以看到Age,Cabin,Embarked列存在缺失值

方法二:

 Train_data.isnull().sum() #可以统计出每列缺失的值

在这里插入图片描述

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路
–删除，补全
(2) 请尝试对Age列的数据的缺失值进行处理
(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理

法一：（不推荐）

Train_data[Train_data['Age']==np.NAN]=0 # 将缺失值置为0
Train_data.head(5)

在这里插入图片描述
法二：使用dropna和fillna（常用）

dropna函数参数：

（1）axis参数：默认情况为行，axis=1表示列

（2）how参数–可取值any或all，表示全为缺失去除和存在缺失去除

fillna函数参数：

（1）value:填充的值

（2）method:填充方法，如果没有参数，默认是ffill (向前填充)。 method=bfill 表示向后填充

（3）axis:需要填充的轴，默认axis=0,竖直方向填充

（4）inplace:修改被调用的对象

2.2 重复值观察与处理

2.2.1 任务一：请查看数据中的重复值(使用duplicated)

Train_data[Train_data.duplicated()]

在这里插入图片描述

2.2.2 任务二：对重复值进行处理

使用drop_duplicates()
在这里插入图片描述

2.2.3 任务三：将前面清洗的数据保存为csv格式

在这里插入图片描述

2.3 特征观察与处理

我们对特征进行一下观察，可以把特征大概分为两大类：
数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散型数值特征，Age，SibSp， Parch， Fare为连续型数值特征

文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked， Ticket为类别型文本特征ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。