本博客为《利用Python进行数据分析》的读书笔记,请勿转载用于其他商业用途。
pandas对象装配了一个常用数字、统计学方法的集合。其中大部分属于归约 或汇总统计 的类别,这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值(如总和或平均值)。与NumPy数组中的类似方法相比,他们内建了处理缺失值的功能。考虑一个小型DataFrame:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
[np.nan, np.nan], [0.75, -1.3]],
index=['a', 'b', 'c', 'd'],
columns=['one', 'two'])
print(df)
#
one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
调用DataFrame的sum
方法返回一个包含列上加和的Series:
print(df.sum())
#
one 9.25
two -5.80
dtype: float64
传入axis='columns'
或axis=1
,则会将一行上各个列的值相加:
print(df.sum(axis='columns'))
#
a 1.40
b 2.60
c 0.00
d -0.55
dtype: float64
除非整个切片上(在本例中是行或列)都是NA,否则NA值是被自动排除的。可以通过禁用skipna
来实现不排除NA值:
print(df.mean(axis='columns', skipna=False))
#
a NaN
b 1.300
c NaN
d -