深入理解Pandas中的分层索引
1. 引言
在数据处理中,我们通常会遇到一维和二维数据,分别存储在Pandas的Series和DataFrame对象中。然而,有时我们需要处理更高维度的数据,即由多个键索引的数据。Pandas提供了分层索引(Hierarchical Indexing,也称为多索引Multi-Indexing)的功能,让我们可以在熟悉的一维Series和二维DataFrame对象中紧凑地表示更高维度的数据。
2. 多索引Series
2.1 糟糕的方式
假设我们要跟踪不同年份各州的人口数据,一种简单的方法是使用Python元组作为键:
import pandas as pd
import numpy as np
index = [('California', 2000), ('California', 2010),
('New York', 2000), ('New York', 2010),
('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
18976457, 19378102,
20851820, 25145561]
pop = pd.Series(populations, index=index)
print(pop)
这种索引方式可以直接对系列进行索引或切片,但如果要选择2010年的所有值,就需要进行一些繁琐的操作:
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



