Python之Pandas库（3）——基本功能（下）

Chrishany

于 2020-01-30 19:46:10 发布

阅读量758

点赞数 1

分类专栏： pandas Python

本文链接：https://blog.youkuaiyun.com/sinat_42574069/article/details/104105574

版权

本文介绍了Pandas中整数索引的特性和潜在问题，强调了在数据选择时应使用标签索引。讨论了算数操作时的数据对齐，特别是在不同索引对象间进行计算时的外连接行为。此外，详细阐述了如何使用填充值的算数方法、DataFrame与Series间的操作、函数应用和映射，以及排序和排名的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本博客为《利用Python进行数据分析》的读书笔记，请勿转载用于其他商业用途。

1. 整数索引

在pandas对象使上用整数索引对新用户来说经常会产生歧义，这是因为它和在列表、元组等Python内建数据结构上进行索引有些许不同。例如：

ser = pd.Series(np.arange(3.))
print(ser)
print(ser[-1])

在上面的例子中，pandas可以“回退”到整数索引，但是这样的方式难免会引起一些微小的错误。假设我们有一个索引，它包含了0、1、2，但是腿短用户所需要的索引方式（标签索引或位置索引）是很难的：

#
0    0.0
1    1.0
2    2.0
dtype: float64

另一方面，对于非整数索引，则不会有潜在的歧义：

ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
print(ser2[-1])

#
2.0

为了保持一致性，如果我们有一个包含整数的索引轴，数据选择时请始终使用标签索引。
为了更精确地处理，可以使用loc（用于标签）或iloc（用于整数）：

print(ser[:1])
print(ser.loc[:1])
print(ser.iloc[:1])

#
0    0.0
dtype: float64
0    0.0
1    1.0
dtype: float64
0    0.0
dtype: float64

2. 算数和数据对齐

不同索引的对象之间的算数行为是pandas提供给一些应用的一项重要特征。当我们将对象相加时，如果存在某个索引对不相同，则返回结果的索引将是索引对的并集。 对数据库用户来说，这个特性类似于索引标签的自动外连接（outer join）：

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)
print(s1 + s2)

#
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

没有交叠的标签位置上，内部数据对齐会产生缺失值。缺失值会在后续的算数操作上产生影响。在DataFrame的实例中，行和列都会执行对齐。

df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print(df2)

#
            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

将这些对象加载一起，返回一个DataFrame，它的索引、列是每个DataFrame的索引、列的并集：

print(df1 + df2)

#
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN

由于‘c’列和‘e’列不是两个DataFrame共有的列，这两列中产生了缺失值。对于行标签不同的DataFrame对象也是如此。
如果我们将两个行或列完全不同的DataFrame对象相加，结果将全部为空：

df1 = pd.DataFrame({
   'A': [1, 2]})
df2 = pd.DataFrame({
   'B': [3

最低0.47元/天解锁文章