【python数据分析】-数据清洗与整理

本文详细介绍了Python数据分析中的数据清洗过程,包括处理缺失值、移除重复数据、替换值、检测异常值和虚拟变量的创建。此外,还讲解了数据合并与重塑的多种方法,如merge、concat和combine_first。最后,提到了字符串处理和一个综合案例,展示了如何根据鸢尾花数据进行数据清洗和初步分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python数据分析-数据清洗与整理

又开始我的好好学习之旅,这周学习数据分析,居老师日常动力!
今天要跟着罗罗攀(公众号:luoluopan1)学pandas数据清洗、合并、重塑以及字符串处理,数据均来自罗罗攀,敲棒~
1.数据清洗
处理缺失值

第一步:找出缺失值
主要通过 **isnull **和 **notnull **方法返回 **布尔值 **来判断什么位置有缺失值
(注:使用juypter notebok)

from pandas import DataFrame,Series
import pandas as pd 
import numpy as np
df = DataFrame([[3,4,5],[1,6,np.nan],['xxj','xf',np.nan],[np.nan,'a','b']])
df.isnull()
df.notnull()

在这里插入图片描述
通过sum可以获得每一列的缺失值数量,在通过sum可以获得整个DataFrame的缺失值数量

df.isnull().sum()
df.isnull().sum().sum()

在这里插入图片描述
通过info的方法可以获得整个DataFrame的数据缺失情况
在这里插入图片描述
第二步:处理缺失值
主要有删除缺失值、填充缺失值两种方法
(1) 可通过dropna方法删除有缺失值的所在行,记住是所在整个行
在这里插入图片描述
dropna方法可传入参数,传入how=‘all’,则会删除全部都为NAN的行,还是整个行

df2 = DataFrame(np.arange(12).reshape(3,4))
df2[3]=np.nan
df2.iloc[2,:]=np.nan
df2.dropna(how='all'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值