统计特征函数
Pandas库中主要的统计特征函数如下表
使用方法:D·函数名,D为Dataframe或者Series类型的对象,如:D·mean()。
Dataframe和Series类型数据结构的初始化:
Series可以看作带索引的一列
Dataframe可以看作带索引和列名的二维表
具体操作看这里
函数主要介绍:
上图中的函数作为Dataframe或者Series对象的方法来使用。函数参数axis_descr默认为0,代表按列计算,axis_descr=1代表按行计算。
-
corr()
-
D为Dataframe类型
D·corr(method=pearson)计算D的相关系数矩阵,method可取pearson(皮尔森系数为默认选项)、spearman(斯皮尔曼系数)、kendall(肯德尔系数) -
S1、S2为Series类型
S1·corr(S2)计算S1与S2的皮尔森相关系数。 -
skew()
D·skew()按列计算每一列数据的偏度。偏度(skewness)是统计数据分布偏斜方向和程度的度量,定义偏度是样本的三阶标准化矩。
公式如下:
情况如下:
(1)偏度=0,正态分布
(2)偏度>0,右偏分布(正偏分布)
(3)偏度<0,左偏分布(负偏分布)
-
kurt()
D·kurt()按列计算每一列数据的峰度。峰度(kurtosis)用来衡量概率密度曲线在均值处的值的大小,定义峰度是样本的四阶标准化矩。
公式如下:
情况如下:
(1)峰度值=3,正态分布
(2)峰度值>3,厚尾
(3)峰度值<3,瘦尾
-
describe()
D·describe()默认计算每一列的的count、mean、std、min、1/4分位数、1/2分位数、3/4分位数、max。
D·describe(per