Python数据分析步骤案例(二)

本文详细介绍了Python中数据整理的过程,包括数据的行列数检查、缺失值处理和重复数据检查与删除。通过实例展示了如何查看数据集的行数和列数,检查并处理缺失值,以及检测和删除重复数据。此外,还提到了在Python中删除或添加数据列的操作方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做完数据提取和问题提出之后就要进行数据整理了,在本次数据整理的数据评估的工作主要做了数据的行列数,缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列,添加解决问题所需要的新的数据列,缺失数据的处理以及重复数据处理。

就此次实验做出总结,此次都是以名为df的数据集为例进行操作语句的示例:

1)查看数据集的行数和列数

df.shape

结果中,第一个数字代表数据集的行数,第二个是列数。

2)检查缺失值

df.info()

info是information的缩写,在notebook中运行代码结果:

RangeIndex的行数为703500,小于这个数表示数据存在缺失值。

3)处理数据缺失

此次实验采用的是删除缺失值:

df.dropna(inplace=True)

dropna为删除缺失的行,inplace=True表示直接在原数据上删除确实行。

4)检查数据重复

对于比较小的数据集,使用duplicated检查各行是否重复:

df.duplicated()

 结果中False是首次的行,True不是首次出现的行,表示重复。

对于大的数据集,使用duplicated().sum():

df.cuplicated().sum()

得出的数值表示重复行数。(这里检查的是整行重复)

5)处理数据重复的方法

直接在原数据上删除重复行:

df.drop_duplicates(inplace=True)

默认删除整行重复的数据,留下第一次出现的数据行。

6)在python中删除或添加列

以 'class_strong'和'delivery_place'这两个列为例,在代码框中输入

df.drop(['class_strong','delivery_place'],asix=1,inplace=True)

注意需要用方括号[]将列标签括起来;asix=1表示删除的是列;inplace=True表示在原数据集进行操作。

7)添加列

通过直接给新列赋值的方式添加新列,例如,给名为df的数据集添加销售额列,方法是在代码框中输入:

df['sales']=df['pro_sales-num']*df['sale_price']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值