DataWhale-2023-1 Data Analysis(二)

本文介绍了数据清洗的关键步骤,包括使用pandas检查和处理数据的缺失值,如通过dropna()和fillna()函数进行删除或填充。此外,讨论了如何处理重复值以及对数值特征进行分箱化和文本变量的转换,如使用one-hot编码。文章强调了数据预处理在数据分析中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


Task02: 数据清洗及特征处理

本篇用于个人学习打卡,故更主要的是记录一些自认为重要的常用知识内容,而非通篇记录|for Mac


在进行数据分析之前,需要先明确数据本身是否需要处理,包括缺失值、重复值和特殊值等等

2.1 数据缺失值观察与处理

(1) 查看各个特征的缺失值情况

方法1 采用DataFrame.info来获取非空值的信息

import numpy as np
import pandas as pd

train = pd.read_csv('train.csv')
train.info()

在这里插入图片描述

方法2 采用聚合类函数SUM等来获取非空值的信息

train.isnull().sum()

在这里插入图片描述

(2) 处理缺失值

一般思路:

选择1 在某特征缺失值不多的情况下,可以直接去除存在缺失值的样本 --Row Drop
比如特征Embarked只有两个缺失值,故可将对应的样本筛除

train1 = train.dropna(subset=['Embarked'])
train1

选择2 若某特征本身缺失较多,则可以考虑去除该特征的相关数据 --Column Drop
例如特征Cabin本身缺失值较多,便可考虑删除该列

train2 = train.drop(['Age'],axis=1)
# 注意 df.drop()本身生成新的对象,不改变原数据对象,故需要赋给新设立的对象train1
train2

选择3 部分特征存在缺失值,但不希望因此而缩减样本量,可以考虑均值、中位数或0值填充

注意:索引缺失值位置以填充时,一般选择df[df.isnull()]或df[df['column_name']==np.nan]来进行索引而不使用 None,因为None属于NoneType,而一般读取数据中的NaN默认为float类型,与np.nan相同,如下:

type(np.nan)
type(train.loc[888,'Age'])
type(None)

在这里插入图片描述
以Age中的缺失值填充为例

# 0值填充缺失
train['Age'] = train['Age'].fillna(0)
train
# 均值填充缺失
train['Age'] = train['Age'].fillna(train['Age'].mean())
train
# 中位数填充缺失
train['Age'] = train['Age'].fillna(trai
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值