数据清洗操作基础 - jupyter

最新推荐文章于 2025-03-05 16:10:08 发布

原创

最新推荐文章于 2025-03-05 16:10:08 发布 · 4.2k 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

本文介绍了数据清洗的基础操作，包括数据概览、行列操作、数据筛选、处理缺失值、数据汇总、分组与聚合等关键步骤。还通过实例讲解了数据的纵向和横向合并，帮助读者掌握数据整合技巧。

文章目录

数据概览

df = pd.read_csv(r'sec_cars.csv')
# 1.查看表格的前N条数据
df.head(5)  # 不写默认也是五条
# 2.查看表格的后N条数据
df.tail(5)  # 不写默认也是五条
# 3.查看表的行列
df.shape  # 结果是一个元组(行数,列数)
# 4.获取表中所有的列名称
df.columns
# 5.获取表中所有的行索引
df.index
# 6.查看数据的数据类型
df.dtypes  # 在处理数据之前应该用该方法查看一下数据类型
# 7.快速统计
df.describe()  # 默认只会统计数字类型的数据
df.describe(include='object') # 可以通过include参数指定统计的数据类型
df.describe(include='all')

行列操作

df1 = pd.read_excel(r'data.xlsx',header=None)

# 1.修改列名称
df1.rename(columns={
   
   0:'序号'})
df1.rename(columns={
   
   0:'序号',1:'类型',2:'颜色',3:'尺码'},inplace=True)
# '''
# # 能修改 但是会报个错误 可以添加下列配置
# pd.set_option('mode.chained_assignment',None)
# '''

df1['序号']  # 获取序号列对应的列数据
df1['库存'] = 666  # 加了赋值符号就是设值
# 1.如果该列名称存在则修改列数据
# 2.如果该列名称不存在则创建新的
df1['测试'] = df1['尺码']*df1['库存']
# 注意:新的列数据可以是直接写死的，也可以是通过其他字段动态计算

df1.insert(0,'插队',6969)
# 还可以控制插入列的位置

数据筛选

# 以二手车为例
# 1.获取列数据
 df['Brand']  # 只获取一列数据
 df[['Brand','Name','New_price']]  # 获取多列一定要是表格的形式
# 2.获取行数据
# df.loc[df['Brand']=='众泰']  # 只有一个条件的
'''逻辑运算符在连接条件的时候 条件都必须加括号'''
df.loc[(df['Brand']=='众泰')&(df['Discharge']=='国4')]

# 3.针对筛选出来的行数据 做列数据的过滤
df.loc[(df['Brand']=='众泰')&(df['Discharge']=='国4'),['Brand','Name']]