Pandas 描述统计函数

本文介绍了Pandas库中用于统计描述的各种方法及其参数。包括count、sum、mean等基本统计量,以及mad、skew等高级统计量的计算方式。同时也解释了不同数据结构如Series、DataFrame和Panel在调用这些统计方法时轴参数的不同。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在进行统计描述时,pandas对三个数据对象的轴参数规定如下:
Series: 没有轴参数
DataFrame: “index” (axis=0, default), “columns” (axis=1)
Panel: “items” (axis=0), “major” (axis=1, default), “minor” (axis=2)
统计描述参数如下:

FunctionDescription描述
countNumber of non-null observations观测值的个数
sumSum of values求和
meanMean of values求平均值
madMean absolute deviation平均绝对方差
medianArithmetic median of values中位数
minMinimum最小值
maxMaximum最大值
modeMode众数
absAbsolute Value绝对值
prodProduct of values乘积
stdBessel-corrected sample standard deviation标准差
varUnbiased variance方差
semStandard error of the mean标准误
skewSample skewness (3rd moment)偏度系数
kurtSample kurtosis (4th moment)峰度
quantileSample quantile (value at %)分位数
cumsumCumulative sum累加
cumprodCumulative product累乘
cummaxCumulative maximum累最大值
cumminCumulative minimum累最小值
cov()covariance协方差
corr()correlation相关系数
rank()rank by values排名
pct_change()time change时间序列变化
### pandas `groupby` 和统计函数的使用 在数据分析领域,Pandas 提供了强大的工具来处理结构化数据。其中,`groupby` 是一种核心功能,能够帮助用户按照特定条件对数据进行分组并执行各种聚合操作。 #### 基本概念 `groupby` 方法的核心思想是对 DataFrame 或 Series 的数据按某个或某些键进行分组,并针对每组应用某种聚合逻辑[^2]。常见的聚合操作包括但不限于均值 (`mean`)、总和 (`sum`)、计数 (`count`)、最大值/最小值 (`max`, `min`) 等。 以下是具体的实现方式: --- #### 示例代码展示 假设有一个如下所示的数据集: | Group | Value | |-------|-------| | A | 10 | | B | 20 | | A | 30 | | B | 40 | 可以通过以下方式进行分组统计: ```python import pandas as pd # 创建示例数据 data = {'Group': ['A', 'B', 'A', 'B'], 'Value': [10, 20, 30, 40]} df = pd.DataFrame(data) # 使用 groupby 进行分组并计算均值 result_mean = df.groupby('Group').mean() print(result_mean) ``` 上述代码会输出每个组的平均值: ``` Value Group A 20 B 30 ``` 如果需要其他统计量,则可以替换 `.mean()` 为不同的方法,例如 `.sum()` 计算总和[^4]。 --- #### 多种统计量组合 当希望一次性获取多种统计量时,可利用 `agg` 方法自定义多个聚合函数: ```python # 自定义多统计量 result_agg = df.groupby('Group').agg(['mean', 'sum', 'min', 'max']) print(result_agg) ``` 这将返回一个包含均值、总计、最小值和最大值的结果表。 --- #### 描述性统计 对于更全面的描述性统计分析,可以直接调用 `describe` 方法,该方法会对每一组提供详细的统计数据摘要[^1]。 ```python # 对分组后的数据进行描述性统计 result_describe = df.groupby('Group')['Value'].describe() print(result_describe) ``` 此命令生成的内容通常包括样本数量、均值、标准差以及四分位数值等信息。 --- #### 高级用法:自定义聚合函数 除了内置的标准统计函数外,还可以通过传递 lambda 表达式或其他 Python 函数来自定义复杂的聚合逻辑[^3]。 ```python # 定义复杂聚合规则 custom_result = df.groupby('Group').agg(custom_stat=('Value', lambda x: (x.max() - x.min()) / x.mean())) print(custom_result) ``` 这里展示了如何创建一个新的字段 `custom_stat` 来表示范围变化相对于均值的比例关系。 --- ### 总结 通过对 Pandas 中 `groupby` 及其关联统计函数的学习,可以高效完成基于类别变量的各种汇总运算任务。无论是基础还是高级需求,这些技术都提供了灵活而强大的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值