学习进度(3-10)
理论铺垫:
- 集中趋势(数据聚拢位置的衡量):均值( df.mean() )、中位数( df.median() )、众数( df.mode() )、分位数( df.quantile(q=0.25) 0.25下四分位数 0.5中四分位数 0.75上四分位数 )
- 离中趋势(值越大越离散,越小越集中):标准差( df.std() )、方差( df.var() )
- 数据分布:偏态( df.skew() ):数据平均值偏离状态的衡量;与峰态( df.kurt() 正态分布为0【实际正态分布是3】作为标准值 )、正态分布与三大分布
抽样理论:抽样误差、抽样精度
其他常用方法:
求和:df.sum()
抽样:df.sample(10) # 抽10个样本 df.sample(frac=0.01) # 抽1%的样本
查看异常值:df.isnull()
异常值处理:df.dropna(axis = 0 ,how = 'any') // axis = 0删除行,1删除列 ,how = 'any'出现一个Nan就删,‘all’整行或整列是Nan就删 ,df.fillna()
条件筛选:Series.where(条件判断)
连续变量的区间值数量分布(直方图):np.histogram(Series.values, bins = np.arange(0.0 , 1.1 , 0.1) ) // bins 自定义区间
np.histogram(Series.values, bins =10 ) // bins 分成10个区间
小区间整数分布(直方图):np.value_counts() // 数量,np.value_counts(normalize = True) // 百分比
生成正态分布:Python3数据分析与挖掘建模实战 3-5 8分钟之后
集中趋势:
四分位数的计算方法:
(上四分位数)Q1的位置 = (n+1)*0.25
(中四分位数)Q2的位置 = (n+1)*0.5
(下四分位数)Q3的位置 = (n+1)*0.75
如:[1,2,3,4,5,6,7] -->Q1=2,Q2=4,Q3=6
如:[1,2,3,4,5,6,7,8,9] -->Q1=2.5,Q2=5,Q3=7.5
四分位数筛选正常值:
离中趋势:
标准差:
m = 0
for i in list:
m += (i - 平均数)的平方
标准差 = m/len(list)
方差:标准差的开方
数据分布:
偏态系数(正数表示正偏移,均值大,大部分数比均值小,负数表示负偏移,均值小,大部分数比均值大):数据平均值偏离状态的衡量
峰态系数(值越大越像尖,越小分布越平滑):数据分布集中强度的衡量
正态分布一般为3,若算得的系数小于1或大于5,即可判断该数据不符合正态分布,故有下面作用。
最大作用:直接拒绝正态分布的假设
正态分布与三大分布:
正态分布(均值为0,方差为1):
其他三大分布(卡方分布(χ2分布)、t分布和F分布):
- 卡方分布(几个标准正态分布的平方和满足于....,就是卡方分布)
- t分布(正态分布的一个随机变量除以一个服从卡方分布的变量):经常用于根据小样本来估计成正态分布,且方差未知的总体的均值。
- F分布(构成两个服从卡方分布的随机变量的比值构成的)
抽样理论:
重复抽样(无放回抽样):总体方差的平方/抽样数量
不重复抽样(不放回抽样):N=总体数量,n=抽样数量
抽样平均误差计算公式:
总体确认时,估计抽样数目:Zα=(保证概率对应的正态值),△=要控制的方差
例题:某鱼塘进行抽样调查,从鱼塘不同部位共网到150条鱼,草鱼123条,草鱼平均2公斤,标准差0.75公斤,95.45概率保证,估计草鱼平均每条的重量。(由于是不同位置,可看做重复抽样)
由于概率为95.45,就要在均值的2倍(看标准正态分布图)误差之内,这里的均值是2,所以每条草鱼在95.45%的概率保证下,重量范围:[2-2*0.07-2+2*0.07]kg --> [1.86-2.14]kg
例题:
数据分析工具:
- 狭义上有三个:Numpy,Scipy,Pandas
- 可视化工具:Matplotlib,seaborn(封装好Matplotlib,方便设置),plotly(画出的图标可直接用在网页上)
- 数据挖掘与建模工具:sklearn
- 神经网络实现的工具:keras
数据分类:
一般分为两类:
- 离散变量
- 连续变量
统计学上分为四类:
- 定类(类别):根据事物离散、无差别属性进行的分类,如:民族,国籍
- 定序(顺序):可以界定数据的大小,但不能测定差值,如:收入的低中高,具体值需要根据实际情况
- 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,乘除无意义,如:温度中,20℃不是10℃的两倍
- 定比(比率):可以界定数据的大小,可测定差值,有绝对零点,乘除有意义,如:身高,体重,长度,体积
单属性分析(3-7到10)
异常值分析:
- 离散异常值:如收入低中高,出现其他的为异常值
- 连续异常值:上下界之外的值为异常值
- 常识(知识)异常值:如身高3m以内,出现10m这种不符合常理的都为异常值
对比分析:
- 绝对数与相对数
- 时间、空间、理论维度比较
结构分析:
各组成部分的分布与规律
分布分析:
数据分布频率的显示分析