pandas.describe()输出参数含义

本文详细介绍了使用describe()函数进行数据统计分析的方法,包括非空值总数、平均值、方差、分位数等关键指标的计算及意义,特别解析了分位数的概念及其计算公式,并通过实例演示了如何计算25%分位数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如下图,调用describe()函数时输出如下函数:

1.count:非空值总数

2.mean:非空值的平均值

3.std:方差

4.min:最小值

5. 25%25%分位数

6. 50%:50%分位数(中位数)

7. 75%:  75%分位数

8.max: 最大值

9.dtype: 数据类型


 

对分位数的解释:查阅得如下资料:

            分位值是随机变量的特征数之一。将随机变量分布曲线与X轴包围的面积作n等分,得n—1个值(X_1、X_2……X_(n-1)),这些值称为n分位值。参数统计中常常用到分位值这一概念。

            简单来说就是把数据按从小到大顺序排列后,位置前x%的数的值。

计算公式:Px=L+i╱fx(n*x%-FL)

具体理解较为麻烦,按下不表。通俗理解为:将数据之间的间隔数除以100,乘以分位数值+1,得出该分位数在哪两个数之间,将较小的数加上两数差值与小数位乘积,即得该分位数。

例子:

  • 步骤1:得出四分位间。

    附表中有14个数据,共13个间隔,则四分位间为13/4=3.25

  • 步骤2:计算25分位值。

    第一个四分位值(即25分位值)=第(1+3.25)个数的数字,即第4个数字和第5个数字之间的0.25位置处,即:25+(36-25)*0.25=27.75。


其他参数含义:

1.unique: 唯一值数

2.top: 频数最高者

3.freq: 最高频数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值