12、深入理解Pandas中的分层索引

火锅TCP

于 2025-10-26 14:56:15 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁Python数据科学文章标签： Pandas 分层索引 MultiIndex

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/155051473

解锁Python数据科学专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入理解Pandas中的分层索引

1. 引言

在数据处理中，我们通常会遇到一维和二维数据，分别存储在Pandas的Series和DataFrame对象中。然而，有时我们需要处理更高维度的数据，即由多个键索引的数据。Pandas提供了分层索引（Hierarchical Indexing，也称为多索引Multi-Indexing）的功能，让我们可以在熟悉的一维Series和二维DataFrame对象中紧凑地表示更高维度的数据。

2. 多索引Series

2.1 糟糕的方式

假设我们要跟踪不同年份各州的人口数据，一种简单的方法是使用Python元组作为键：

import pandas as pd
import numpy as np

index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
print(pop)

这种索引方式可以直接对系列进行索引或切片，但如果要选择2010年的所有值，就需要进行一些繁琐的操作：