[Python3] Pandas v1.0 —— (三) 层级索引

本文详细介绍了Pandas 1.0中的层级索引,包括如何创建多级索引的Series和DataFrame,多级索引的取值、切片操作,以及行列转换、数据累计方法。通过实例展示了如何利用层级索引高效处理高维数据,提升数据操作的灵活性和便利性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


[ Pandas version: 1.0.1 ]


五、层级索引

对于存储多维数据的需求,数据索引超过一两个键,Pandas提供了Panel和Panel4D对象解决三维数据和四维数据。(本文不涉及Panel)

而实践中,更直观的形式是通过层级索引(hierarchical indexing, 或多级索引 multi-indexing)配合多个有不同等级的一级索引一起使用,可以将高维数组转换成类似一维Series和二维DataFrame对象的形式。

(一)多级索引Series

1. 低效方法:用Python元组表示索引
import numpy as np
import pandas as pd
# 用一维Series对象表示二维数据

# 1. 笨方法:用Python元组表示索引
index = [('California', 2000), ('California', 2010), ('New York', 2000),
         ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop
# (California, 2000)    33871648
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# (Texas, 2010)         25145561
# dtype: int64

# 通过元组构成的多级索引在Series上取值或切片查询
pop[('California', 2010):('Texas', 2000)]
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# dtype: int64

# 选择2000年的数据(效率低)
pop[[i for i in pop.index if i[1] == 2010]]
# (California, 2010)    37253956
# (New York, 2010)      19378102
# (Texas, 2010)         25145561
# dtype: int64
2. 高效方法:Pandas多级索引

Pandas的MultiIndex类型:

  • levels属性表示索引的等级,可以将索引作为每个数据点的不同标签
  • reindex方法将索引重置
# Pandas的MultiIndex类型
# 用元组创建一个多级索引
index = pd.MultiIndex.from_tuples(index)
index
# MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
#            codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

# 重置索引
pop = pop.reindex(index)
pop
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

# 切片查询:可直接用第二个索引获取2010年数据,获取单索引数组
pop[:, 2010]
# California    37253956
# New York      19378102
# Texas         25145561
# dtype: int64
3. 高维数据的多维索引

unstack()方法将一个多集索引的Series转化为普通索引的DataFrame。反之,stack()方法将DataFrame转化为Series。

如果可以用含多级索引的一维Series数据表示二维数据,就可以用Series或DataFrame表示三维甚至更高维度的数据。

多级索引每增加一级,就表示数据增加一维,利用这个特点可以轻松表示任意维度的数据。

pop_df = pop.unstack()
pop_df
#                 2000      2010
# California  33871648  37253956
# New York    18976457  19378102
# Texas       20851820  25145561

pop_df.stack()
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64
# 带有MultiIndex的对象增加一列
pop_df = pd.DataFrame({'total': pop, 'under18': [
                      9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df
#                     total  under18
# California 2000  33871648  9267089
#            2010  37253956  9284094
# New York   2000  18976457  4687374
#            2010  19378102  4318033
# Texas      2000  20851820  5906301
#            2010  25145561  6879014

# 通用函数和其他功能也同样适用于层级索引
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()
#                 2000      2010
# California  0.273594  0.249211
# New York    0.247010  0.222831
# Texas       0.283251  0.273568

(二)多级索引的创建方法

为Series或DataFrame创建多级索引最直接的办法就是将index参数设置为至少二维的索引数组。

如果将元组作为键的字典传递给Pandas,Pandas也会默认转换为MultiIndex

df = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [
                  1, 2, 1, 2]], columns=['data1', 'data2'])
df
#         data1     data2
# a 1  0.290238  0.067935
#   2  0.264533  0.155016
# b 1  0.731323  0.055852
#   2  0.589025  0.637130

data = {('California', 2000): 33871648, ('California', 2010): 37253956, ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561, ('New York', 2000): 18976457, ('New York', 2010): 19378102}
pd.Series(data)
# California  2000    33871648
#             2010    37253956
# Texas       2000    20851820
#             2010    25145561
# New York    2000    18976457
#             2010    19378102
# dtype: int64
1. 显式地创建多级索引

pd.MultiIndex中的类方法灵活构建多级索引:

  • 通过一个有不同等级的若干简单数组组成的列表来构建 MultiIndex pd.MultiIndex.from_arrays()
  • 可以通过包含多个索引值的元组构成的列表创建 MultiIndex pd.MultiIndex.from_tuples()
  • 可以用两个索引的笛卡尔积创建 MultiIndex pd.MultiIndex.from_product()
  • 可以直接提供levels(包含每个等级的索引值列表的列表)和codes(包含每个索引值标签列表的列表)创建 MultiIndex pd.MultiIndex(levels= ,codes= )

在创建Series或DataFrame时,可以将这些对象作为index参数,或者通过reindex方法更新Series或DataFrame的索引。

pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex.from_product([['a', 'b'], [1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex(levels=[['a', 'b'], [1, 2]], codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
2. 多级索引的等级名称

在处理复杂数据时,为等级设置名称是管理多个索引值的好方法。

在MultiIndex构造器中通过names参数设置等级名称,或在创建之后通过索引的names属性修改名称。

pop.index.names = ['state', 'year']
pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64
3. 多级列索引
# 多级行列索引
index = pd.MultiIndex.from_product(
    [[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product(
    [['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])
# 模拟数据
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
# 创建DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4

health_data['Guido']
# type          HR  Temp
# year visit
# 2013 1      29.0  36.3
#      2      46.0  37.5
# 2014 1      29.0  37.6
#      2      26.0  37.4

(三)多级索引的取值和切片

1. Series多级索引
pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

(1) 通过对多个级别索引值获取单个元素

pop['California', 2000] 	#输出:33871648

MultiIndex 支持局部取值(partial indexing),即只取索引的某一个层级。假如只取最高级的层级,获得的结果是一个新的Series,未被选中的低层索引值会被保留。

pop['California']
# year
# 2000    33871648
# 2010    37253956
# dtype: int64

局部切片:要求 MultiIndex 是按顺序排列的。如果索引已经排序那么可以用较低层级的索引取值,第一层级的索引可以用空切片。

pop.loc['California':'New York']
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# dtype: int64

pop[:, 2000]
# state
# California    33871648
# New York      18976457
# Texas         20851820
# dtype: int64

(2) 通过布尔掩码选择数据

pop[pop > 22000000]
# state       year
# California  2000    33871648
#             2010    37253956
# Texas       2010    25145561
# dtype: int64

(3) 通过花哨索引选择数据

pop[['California', 'Texas']]
# state       year
# California  2000    33871648
#             2010    37253956
# Texas       2000    20851820
#             2010    25145561
# dtype: int64
2. DataFrame多级索引

DataFrame多级索引的用法与Series类似。由于DataFrame的基本索引是列索引,因此Series中多级索引的用法到了DataFrame中就应用在列上了。

health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4

# 获取Guido的心率数据
health_data['Guido', 'HR']
# year  visit
# 2013  1        29.0
#       2        46.0
# 2014  1        29.0
#       2        26.0
# Name: (Guido, HR), dtype: float64
# 索引器适用
health_data.iloc[:2, :2]
# subject      Bob
# type          HR  Temp
# year visit
# 2013 1      47.0  39.1
#      2      30.0  36.4

# 索引元组
health_data.loc[:, ('Bob', 'HR')]
# year  visit
# 2013  1        47.0
#       2        30.0
# 2014  1        27.0
#       2        45.0
# Name: (Bob, HR), dtype: float64

# 索引元组切片报错
# health_data.loc[(:, 1), (:, 'HR')]
#   File "<ipython-input-246-fb34fa30ac09>", line 1
#     health_data.loc[(:, 1), (:, 'HR')]
#                      ^
# SyntaxError: invalid syntax

虽然索引器将多维数据当做二维数据处理,但在lociloc中可以传递多个层级的索引元组(这种索引元组用法不够方便,如果在元组中使用切片会报错)

可以结合使用Pandas的IndexSlice对象进行切片。

# IndexSlice对象
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]
# subject      Bob Guido   Sue
# type          HR    HR    HR
# year visit
# 2013 1      47.0  29.0  49.0
# 2014 1      27.0  29.0  26.0

(四)多级索引行列转换

1. 有序的索引和无序的索引

如果 MultiIndex 不是有序的索引,那么大多数切片操作都会失败。

局部切片和其他相似操作都要求 MultiIndex 的各级索引是有序的(按字典顺序 A-Z)。

Pandas提供许多便捷操作完成排序,如sort_index()sortlevel()方法。

index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data
# char  int
# a     1      0.339133
#       2      0.754435
# c     1      0.913014
#       2      0.985422
# b     1      0.183062
#       2      0.618703
# dtype: float64

# 局部切片报错
# data['a': 'b']
# UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

data = data.sort_index()
# char  int
# a     1      0.339133
#       2      0.754435
# b     1      0.183062
#       2      0.618703
# c     1      0.913014
#       2      0.985422
# dtype: float64

data['a': 'b']
# char  int
# a     1      0.339133
#       2      0.754435
# b     1      0.183062
#       2      0.618703
# dtype: float64
2. 索引stack与unstack

将一个多级索引数据集转换成简单的二维形式,可以通过level参数设置转换的索引层级。

  • level=0,即最高级索引堆叠成列索引。
  • 默认level=-1,即最低级索引堆叠成列索引。
DataFrame.unstack(self, level=-1, fill_value=None)

Parameters:
	level: 	int, str, or list of these, default -1 (last level)
			Level(s) of index to unstack, can pass level name.

	fill_value: int, str or dict
				Replace NaN with this value if the unstack produces missing values.
pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64
pop.unstack(level=0)
# state  California  New York     Texas
# year
# 2000     33871648  18976457  20851820
# 2010     37253956  19378102  25145561

pop.unstack(level=1)
# year            2000      2010
# state
# California  33871648  37253956
# New York    18976457  19378102
# Texas       20851820  25145561

# unstack()是stack()的逆操作,同时使用让数据保持不变
pop.unstack().stack()
3. 索引的设置与重置

层级数据维度转换的另一种方法是行列标签转换,可以通过reset_index方法实现。

  • Series中使用reset_index方法,生成一个列标签中包含行索引标签的DataFrame
pop_flat = pop.reset_index(name='population')
pop_flat
#         state  year  population
# 0  California  2000    33871648
# 1  California  2010    37253956
# 2    New York  2000    18976457
# 3    New York  2010    19378102
# 4       Texas  2000    20851820
# 5       Texas  2010    25145561
  • 在解决实际问题时,如果能将类似这样的原始数据的列直接转换成 MultiIndex,通常将大有裨益。

  • 通过DataFrame的set_index方法实现,返回结果会是一个带多级索引的DataFrame

pop_flat.set_index(['state', 'year'])
#                  population
# state      year
# California 2000    33871648
#            2010    37253956
# New York   2000    18976457
#            2010    19378102
# Texas      2000    20851820
#            2010    25145561

(五)多级索引的数据累计方法

对于层级索引数据,可以设置参数levelaxis实现对数据子集的累计操作。

health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4
     
# 计算每一年各项指标的平均值
data_mean = health_data.mean(level='year')
data_mean
# subject   Bob        Guido         Sue
# type       HR   Temp    HR  Temp    HR   Temp
# year
# 2013     38.5  37.75  37.5  36.9  35.5  37.40
# 2014     36.0  36.70  27.5  37.5  36.5  36.45

# 对列索引进行累计操作
data_mean.mean(axis=1, level='type')
# type         HR       Temp
# year
# 2013  37.166667  37.350000
# 2014  33.333333  36.883333

Pandas 相关阅读:

[Python3] Pandas v1.0 —— (一) 对象、数据取值与运算
[Python3] Pandas v1.0 —— (二) 处理缺失值
[Python3] Pandas v1.0 —— (三) 层级索引 【本文】
[Python3] Pandas v1.0 —— (四) 合并数据集
[Python3] Pandas v1.0 —— (五) 累计与分组
[Python3] Pandas v1.0 —— (六) 数据透视表
[Python3] Pandas v1.0 —— (七) 向量化字符串操作
[Python3] Pandas v1.0 —— (八) 处理时间序列
[Python3] Pandas v1.0 —— (九) 高性能Pandas: eval()与query()


总结自《Python数据科学手册》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值