数据清洗操作基础 - jupyter

本文介绍了数据清洗的基础操作,包括数据概览、行列操作、数据筛选、处理缺失值、数据汇总、分组与聚合等关键步骤。还通过实例讲解了数据的纵向和横向合并,帮助读者掌握数据整合技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据概览

df = pd.read_csv(r'sec_cars.csv')
# 1.查看表格的前N条数据
df.head(5)  # 不写默认也是五条
# 2.查看表格的后N条数据
df.tail(5)  # 不写默认也是五条
# 3.查看表的行列
df.shape  # 结果是一个元组(行数,列数)
# 4.获取表中所有的列名称
df.columns
# 5.获取表中所有的行索引
df.index
# 6.查看数据的数据类型
df.dtypes  # 在处理数据之前应该用该方法查看一下数据类型
# 7.快速统计
df.describe()  # 默认只会统计数字类型的数据
df.describe(include='object') # 可以通过include参数指定统计的数据类型
df.describe(include='all') 

行列操作

df1 = pd.read_excel(r'data.xlsx',header=None)

# 1.修改列名称
df1.rename(columns={
   0:'序号'})
df1.rename(columns={
   0:'序号',1:'类型',2:'颜色',3:'尺码'},inplace=True)
# '''
# # 能修改 但是会报个错误 可以添加下列配置
# pd.set_option('mode.chained_assignment',None)
# '''

df1['序号']  # 获取序号列对应的列数据
df1['库存'] = 666  # 加了赋值符号就是设值
# 1.如果该列名称存在则修改列数据
# 2.如果该列名称不存在则创建新的
df1['测试'] = df1['尺码']*df1['库存']
# 注意:新的列数据可以是直接写死的,也可以是通过其他字段动态计算

df1.insert(0,'插队',6969)
# 还可以控制插入列的位置

数据筛选

# 以二手车为例
# 1.获取列数据
 df['Brand']  # 只获取一列数据
 df[['Brand','Name','New_price']]  # 获取多列一定要是表格的形式
# 2.获取行数据
# df.loc[df['Brand']=='众泰']  # 只有一个条件的
'''逻辑运算符在连接条件的时候 条件都必须加括号'''
df.loc[(df['Brand']=='众泰')&(df['Discharge']=='国4')]

# 3.针对筛选出来的行数据 做列数据的过滤
df.loc[(df['Brand']=='众泰')&(df['Discharge']=='国4'),['Brand','Name'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值