《数据分析与挖掘建模实战》
利用HR.csv数据进行实际操作
一、描述统计
import pandas as pd #引入pandas模块
df=pd.read_csv("HR.csv") #导入HR.csv数据
df.mean() #求均值
df["satisfaction_level"].mean() #求其中一个变量的均值
df.median() #求中位数
df.quantile(q=0.25) #求四分位数 q可以等于0.25、0.5、0.75
df.mode() #求众数
df.std() #标准差
df.var() #方差
df.sum() #求和
df.skew() #偏态系数
df.kurt() #峰度
df.sample(n=10) #抽取10个样本
df.sample(frac=0.001) #抽取0.001%
偏态系数:数据平均值的偏离程度,为正则是正偏,数据的平均值比中位数大;为负时平均值比中位数小。
峰态系数:数据的集中趋势,越小越不集中,越大越集中
三大分布:标准正态分布,卡方分布,t分布,F分布。要引入scipy.stats
import scipy.stats as ss #导入scipy.stats包
ss.norm #正态分布
ss.norm.stats(moments="mvsk") #正态分布的均值m,方差v,偏态系数s,峰度系数k
ss.norm.pdf(0.0) #标准正态分布给出横坐标,求出纵坐标的值
ss.norm.ppf(0.9) #从-∞积分到多少是0.9
ss.norm.cdf(2) #从-∞积分到2的面积是多少
ss.norm.cdf(2)-ss.norm.cdf(-2)
ss.norm.rvs(size=10) #得到十个正态分布的数字
ss.chi2 #卡方分布
ss.t #t分布
ss.f #F分布
二、数据分类:定类数据、定序数据、定距数据(没有绝对零点,乘法除法无意义)、定比数据
三、单属性分析
异常值分析:连续异常值、离散异常值、知识异常值
对比分析:从时间、空间、计划与经验来对比分析
结构分析:
分布分析:直接获得概率分布、是不是正态分布、极大似然
import pandas as pd
import numpy as np
df=pd.read_csv(HR.csv)
sl_s=df["satisfaction_level"]
sl_s.isnull() #列出有没有异常值
sl_s[sl_s.isnull()] #找出异常值
df[df["satisfaction_level"].isnull()] #查看异常值
sl_s=sl_s.dropna() #舍弃异常值
np.histogram(sl_s.values,bins=n