Python之Pandas库（4）——描述性统计的概述与计算

最新推荐文章于 2025-04-18 08:30:03 发布

Chrishany

最新推荐文章于 2025-04-18 08:30:03 发布

阅读量812

点赞数

分类专栏： pandas Python

本文链接：https://blog.youkuaiyun.com/sinat_42574069/article/details/104118121

版权

本文是《利用Python进行数据分析》的读书笔记，探讨了Pandas库中的描述性统计方法，包括归约和汇总统计，如加和、唯一值、计数、成员属性等。Pandas提供了处理缺失值的功能，并介绍了相关性、协方差以及非数值类型的汇总统计。此外，文章还展示了如何计算DataFrame列的直方图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本博客为《利用Python进行数据分析》的读书笔记，请勿转载用于其他商业用途。

pandas对象装配了一个常用数字、统计学方法的集合。其中大部分属于归约或汇总统计 的类别，这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值（如总和或平均值）。与NumPy数组中的类似方法相比，他们内建了处理缺失值的功能。考虑一个小型DataFrame：

df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
print(df)
#
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

调用DataFrame的sum方法返回一个包含列上加和的Series：

print(df.sum())
#
one    9.25
two   -5.80
dtype: float64

传入axis='columns'或axis=1，则会将一行上各个列的值相加：

print(df.sum(axis='columns'))
#
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

除非整个切片上（在本例中是行或列）都是NA，否则NA值是被自动排除的。可以通过禁用skipna来实现不排除NA值：

print(df.mean(axis='columns', skipna=False))
#
a      NaN
b    1.300
c      NaN
d   -

最低0.47元/天解锁文章