数据挖掘笔记(2)-统计特征函数和数据可视化作图

数据可视化作图参考博客

统计特征函数

Pandas库中主要的统计特征函数如下表
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
使用方法:D·函数名,D为Dataframe或者Series类型的对象,如:D·mean()

Dataframe和Series类型数据结构的初始化:
Series可以看作带索引的一列
Dataframe可以看作带索引和列名的二维表
具体操作看这里

函数主要介绍:
上图中的函数作为Dataframe或者Series对象的方法来使用。函数参数axis_descr默认为0,代表按列计算,axis_descr=1代表按行计算。

  • corr()

  • D为Dataframe类型
    D·corr(method=pearson)计算D的相关系数矩阵,method可取pearson(皮尔森系数为默认选项)、spearman(斯皮尔曼系数)、kendall(肯德尔系数)

  • S1、S2为Series类型
    S1·corr(S2)计算S1与S2的皮尔森相关系数。

  • skew()
    D·skew()按列计算每一列数据的偏度。偏度(skewness)是统计数据分布偏斜方向和程度的度量,定义偏度是样本的三阶标准化矩
    公式如下:
    在这里插入图片描述
    情况如下:
    (1)偏度=0,正态分布
    (2)偏度>0,右偏分布(正偏分布)
    (3)偏度<0,左偏分布(负偏分布)
    在这里插入图片描述

  • kurt()
    D·kurt()按列计算每一列数据的峰度。峰度(kurtosis)用来衡量概率密度曲线在均值处的值的大小,定义峰度是样本的四阶标准化矩
    公式如下:
    在这里插入图片描述
    情况如下:
    (1)峰度值=3,正态分布
    (2)峰度值>3,厚尾
    (3)峰度值<3,瘦尾
    在这里插入图片描述

  • describe()
    D·describe()默认计算每一列的的count、mean、std、min、1/4分位数、1/2分位数、3/4分位数、max。
    D·describe(per

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值