做完数据提取和问题提出之后就要进行数据整理了,在本次数据整理的数据评估的工作主要做了数据的行列数,缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列,添加解决问题所需要的新的数据列,缺失数据的处理以及重复数据处理。
就此次实验做出总结,此次都是以名为df的数据集为例进行操作语句的示例:
1)查看数据集的行数和列数
df.shape
结果中,第一个数字代表数据集的行数,第二个是列数。
2)检查缺失值
df.info()
info是information的缩写,在notebook中运行代码结果:
RangeIndex的行数为703500,小于这个数表示数据存在缺失值。
3)处理数据缺失
此次实验采用的是删除缺失值:
df.dropna(inplace=True)
dropna为删除缺失的行,inplace=True表示直接在原数据上删除确实行。
4)检查数据重复
对于比较小的数据集,使用duplicated检查各行是否重复:
df.duplicated()
结果中False是首次的行,True不是首次出现的行,表示重复。
对于大的数据集,使用duplicated().sum():
df.cuplicated().sum()
得出的数值表示重复行数。(这里检查的是整行重复)
5)处理数据重复的方法
直接在原数据上删除重复行:
df.drop_duplicates(inplace=True)
默认删除整行重复的数据,留下第一次出现的数据行。
6)在python中删除或添加列
以 'class_strong'和'delivery_place'这两个列为例,在代码框中输入
df.drop(['class_strong','delivery_place'],asix=1,inplace=True)
注意需要用方括号[]将列标签括起来;asix=1表示删除的是列;inplace=True表示在原数据集进行操作。
7)添加列
通过直接给新列赋值的方式添加新列,例如,给名为df的数据集添加销售额列,方法是在代码框中输入:
df['sales']=df['pro_sales-num']*df['sale_price']