python数据清洗

最新推荐文章于 2023-06-25 10:22:30 发布

原创最新推荐文章于 2023-06-25 10:22:30 发布 · 719 阅读

CC 4.0 BY-SA版权

1 篇文章

订阅专栏

这篇博客详细介绍了使用Python进行数据清洗的各个步骤，包括数据的读写（如CSV、Excel格式）、数据探索（如查看行列数、统计描述）、数据处理（如空格去除、列名提取）、重复值和缺失值的处理、异常值识别与处理，以及文本字符串和时间序列的处理。文中使用了pandas库，提供了具体的代码示例。

数据的读写

用pandas

df=pd.read_csv('文件路径')

df=pd.read_excel('文件路径')

用pandas读取数据后，都是datafram格式的数据
查看数据的行列数

df.shape

df.info()

df.describe()

 df.columns

提取列的名称

col=df.columns.values

列表推导式

df.columns=[x.strip() for x in col]

注：strip只能去除前后空格

duplicated()

df.duplicated().sum()#即对重复值进行统计

产看重复值

df[df.duplicated()]

drop_duplicates(inplace=True)#inplace=True表示直接在源数据上进行操作

由于删除了原始数据，故需要对每一行数据前面的排列编号进行一次更新

df.index=range(df.shape[0])

查找相应的异常值

sta=(df['价格']-df['价格'].mean())/df['价格'].std()
df[sta.abs()>3]

节省大于价格的异常值

df[df.节省>df.价格]

提取出异常值的索引编号

delindex=pd.concat([df[df.节省>df.价格]],df[sta.abs()>3]]).index

根据提取出的索引编号删除源数据

df.drop(delindex,inplace=True)

查看处理后的数据

df.shape

df.isnull()#查看缺失值
df.notnull()#查看不是缺失值的数据
df.dropna()#删除缺失值
df.fillna()#填补缺失值

缺失值的统计

df.isnull().sum()

df.loc[df.出发地.isnull(),'出发地']=[str(x)[:2] for x in df.loc[df.出发地.isnull(),'路线名']]

缺失值的填充
用平均值进行填充缺失值

df['价格'].fillna(round(df['价格'].mean(),0),inplace=True)

去除前后空格处理
处理中间有，()之类的数据：replace(’’,’’)
正则表达式提取所需数据
提取酒店评分

df['酒店评分']=df.酒店.str.extract('(\d\.\d)分/5分',expand=False)
\d表示数字
\.表示.
#引号中间的是提取的内容的形式，括号中间才是提取的真实内容
#数据中酒店评分的格式如:4.5、4.6

df['酒店评分']=df.酒店.str.extract(' (.+) ',expand=False)
#  .+表示所有内容
#整句话翻译就是，提取酒店列表中被两个空格中间的内容

df['天数']=df.路线名.str.extract('(\d+)天\d晚',expand=False)
\d+所有数字，不管有多少位
\d表示个位

将系统时间格式化
系统时间和时间戳相互转换
年月日提取