导入数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
data = pd.read_excel("data/attacks.xlsx")
data.head(5)
不管是分析什么数据,首先都要将其数据导入进来,才会有后续的问题分析。
查看数据的基本信息
data.info()
该命令行可以查看数据的基本信息,比如一共有多少条记录、多少个特征、字段名称、字段类型、缺失行的数量等。
缺失值处理——删除行或列
方法一
data=data.drop(columns=["Islamic_Date","Temperature_F"])
data.head(5)
说明:中括号里面是列名,可以添加多个列名
这种是直接将整列删除掉,可以删除多列。
方法二
data.drop(labels = ['Islamic_Date','Temperature_F'], axis = 1, inplace=True)
data.drop(labels = 'Islamic_Date', axis = 1, inplace=True)
data=data.drop(labels = data.index[data['Temperature_F'].isnull()], axis = 0)
data.head(5)
说明:labels后是列名,如果删除的是列的话,labels后可以添加多列一起删除,但是如果删除的是行的话,labels后只可以写一个列名,只针对一列来删除多行。
axis等于1时是删除列。axis等于0时是删除行。
缺失值处理——用某值填充
data.loc[data.Influencing_Event_Event.isnull(),"Influencing_Event_Event"]="0"
该命令行是用零来填充Influencing_Event_Event列中的缺失值。
缺失值处理——中位数、众数、平均数填充
aver_Killed_Min=np.round(np.mean(data.Killed_Min),1)
data.loc[data.Killed_Min.isnull(),"Killed_Min"]=aver_Killed_Min
data.info()
说明:中位数(median)、众数(mode)、平均数(mean)
该命令行是处理Killed_Min列,用本列的平均值填充缺失值。
好了,目前就先写到这里啦,第一次写博客,如有不好的地方,还请多多指教,有空时再继续更新啦,byebye!