Python数据分析--数据预处理

本文介绍了Python数据分析中的数据预处理步骤,包括缺失值处理(查看、删除、填充)、重复值处理、异常值检测与处理、数据类型转换以及索引设置。详细讲解了各种操作方法,如dropna()、drop_duplicates()、astype()以及set_index()等函数的使用,为数据清洗提供实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

缺失值处理

对于缺失值一般有两种处理方式,一是直接把含有缺失值的数据删除,二是把缺失值的数据用某个值代替

缺失值查看

df
>>>
   编号	年龄	   性别	 注册时间
0	A1	54.0	NaN	 2018-08-08
1	A2	NaN	    女	 2018-08-09
2	A3	47.0	女	 NaT
3	A4	41.0	男	 2018-08-11

# info判断数据的缺失情况
df.info()
>>>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
编号      4 non-null object
年龄      3 non-null float64
性别      3 non-null object
注册时间    3 non-null datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 208.0+ bytes

# isnull判断哪个值是缺失值,缺失值返回True,非缺失值返回False
df.isnull()
>>>
    编号	    年龄	    性别	    注册时间
0	False	False	True	False
1	False	True	False	False
2	False	False	False	True
3	False	False	False	False

缺失值删除

dropna()默认删除含有缺失值的整行

df.dropna()
>>>
   编号	年龄	   性别	注册时间
3	A4	41.0	男	2018-08-11

只删除全为空值的行,只要给dropna()传入一个参数 how = all

df
>>>
   编号	年龄	   性别	注册时间
0	A1	54.0	男	2018-08-08
1	NaN	NaN 	NaN	NaT
2	A3	47.0	女	NaT
3	A4	41.0	男	2018-08-11
df.dropna(how = 'all')
>>>
   编号	年龄	   性别	注册时间
0	A1	54.0	男	2018-08-08
2	A3	47.0	女	NaT
3	A4	41.0	男	2018-08-11

缺失值填充

缺失值一般用0填充、平均值填充、众数填充,还有向前填充(即缺失值的前一个非缺失值填充)、向后填充

df.fillna(0) #用0填充
>>>
   编号	年龄	   性别	注册时间
0	A1	54.0	男	201
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值