【python数据分析】-数据清洗与整理

最新推荐文章于 2025-10-17 09:15:00 发布

原创

最新推荐文章于 2025-10-17 09:15:00 发布 · 6.4k 阅读

99 ·

CC 4.0 BY-SA版权

文章标签：

#python数据分析 #数据清洗

本文详细介绍了Python数据分析中的数据清洗过程，包括处理缺失值、移除重复数据、替换值、检测异常值和虚拟变量的创建。此外，还讲解了数据合并与重塑的多种方法，如merge、concat和combine_first。最后，提到了字符串处理和一个综合案例，展示了如何根据鸢尾花数据进行数据清洗和初步分析。

python数据分析-数据清洗与整理

又开始我的好好学习之旅，这周学习数据分析,居老师日常动力！

今天要跟着罗罗攀（公众号：luoluopan1）学pandas数据清洗、合并、重塑以及字符串处理，数据均来自罗罗攀，敲棒~

1.数据清洗

处理缺失值

第一步：找出缺失值
主要通过 **isnull **和 **notnull **方法返回 **布尔值 **来判断什么位置有缺失值
(注：使用juypter notebok)

from pandas import DataFrame,Series
import pandas as pd 
import numpy as np
df = DataFrame([[3,4,5],[1,6,np.nan],['xxj','xf',np.nan],[np.nan,'a','b']])
df.isnull()
df.notnull()

在这里插入图片描述
通过sum可以获得每一列的缺失值数量，在通过sum可以获得整个DataFrame的缺失值数量

df.isnull().sum()
df.isnull().sum().sum()

在这里插入图片描述
通过info的方法可以获得整个DataFrame的数据缺失情况

第二步：处理缺失值
主要有删除缺失值、填充缺失值两种方法
(1) 可通过dropna方法删除有缺失值的所在行，记住是所在整个行

dropna方法可传入参数，传入how=‘all’，则会删除全部都为NAN的行，还是整个行

df2 = DataFrame(np.arange(12).reshape(3,4))
df2[3]=np.nan
df2.iloc[2,:]=np.nan
df2.dro

最低0.47元/天解锁文章