说明:本blog基于python3, pandas 1.3.5, numpy 1.22.0版本
文章目录
前言
本文主要介绍pandas的分层索引构建,按层级对换和排序,按层级聚合,共3个部分。并附有代码实例。其中分层索引构建由Series和DataFrame两个研究对象组成;其他两个部分都是以DataFrame为基础。
一、分层索引构建
1.1 Series数据结构
我们可以采用如下方式创建分层索引
import pandas as pd
import numpy as np
a = pd.Series([1,2,3,4,5,6], index = [["a", "a", "b", "b", "c", "c"],["11","22","11","22","11","22"]])
print(a)
###结果
#a 11 1
# 22 2
#b 11 3
# 22 4
#c 11 5
# 22 6
#dtype: int64
由此可见,有几层索引,index参数就是长度为几的list,list中的每个元素依然是list,长度必须与Series长度相等!!!
本题如果我们想取出索引为 “b” 的数组
b = a["b"]
print(b)
结果如下
11 3
22 4
dtype: int64
本题如果我们想取出索引为 (“b” ,“11”)的数组
c = a["b","11"]
print(c)
结果如下
3
很好,符合我们预期
其实,与正常Series取某索引的方法相同。
1.2 两层索引的Series转化为DataFrame
然后,我们想把含有两层索引的Series转化为DataFrame,
使用unstack方法, 方法原理是Series外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns
代码如下
###由分层索引的Series转化为DataFrame,外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns
d = a.unstack()
print(d)
print(type(d))
###unstack的反向操作
a = d.stack()
print(a)
print(type(a))
结果如下
11 22
a 1 2
b 3 4
c 5 6
<class 'pandas.core.frame.DataFrame'>
a 11 1
22 2
b 11 3
22 4
c 11 5
22 6
dtype: int64
<class 'pandas.core.series.Series'>
1.3 DataFrame数据结构
我们新建一个包含两层行索引和两层列索引的DataFrame
代码如下
q = pd.DataFrame(np.array(range(20)).reshape(4,5), index = [["a", "a", "b", "b"],["11","22","11","22"]],
columns = [["onion","carrot","onion","carrot","carrot"], ["Green", "Green","blue","blue","yellow"]])
print(q)
结果如下
onion carrot onion carrot
Green Green blue blue yellow
a 11 0 1 2 3 4
22 5 6 7 8 9
b 11 10 11 12 13 14
22 15 16 17 18 19
然后我们对新建的DataFrame a按层级对换和排序
二、DataFrame按层级对换和排序
2.1 命名层级
公式1: DataFrame.index.names = 层级的名称列表,列表长度等于层级个数
公式2: DataFrame.columns.names = 层级的名称列表,列表长度等于层级个数
【注:如果对DataFrame类型数据进行层级操作,我们必须首先对层级进行“命名”】
由外到内,分别命名index的层级为 “first_lev”, “second_lev”
由外到内,分别命名column的层级为 “first_col”, “second_col”
###首先必须命名层级
q.index.names = ["first_lev", "second_lev"]
q.columns.names = ["first_col", "second_col"]
2.2 交换层级
公式1: DataFrame.swaplevel(axis = 0, 需要交换的两个属于index的level的名称)
公式2: DataFrame.swaplevel(axis = 1, 需要交换的两个属于columns的level的名称),
【注:只要inplace参数为True,则返回Series或DataFrame的“视图”】
首先交换index两个层级,
代码如下
###交换行层级
q1 = q.swaplevel("first_lev", "second_lev", axis = 0)
print(q1)
结果如下
first_col onion carrot onion carrot
second_col Green Green blue blue yellow
second_lev first_lev
11 a 0 1 2 3 4
22 a 5 6 7 8 9
11 b 10 11 12 13 14
22 b 15 16 17 18 19
交换两个列层级,
###交换列层级
q5 = q.swaplevel("first_col", "second_col", axis = 1)
print(q5)
结果如下
second_col Green blue yellow
first_col onion carrot onion carrot carrot
first_lev second_lev
a 11 0 1 2 3 4
22 5 6 7 8 9
b 11 10 11 12 13 14
22 15 16 17 18 19
2.3 层级排序
公式: DataFrame.sort_values(axis = 0/1,ascending = True/False,inplace = True/False, level = 排序层级的名称/排序层级的名称的列表)
我们分别对q按行层级的first_lev 层进行降序排序 和 对q按列层级first_col 和 second_col 进行升序排序,代码如下
###按特定行层级排序/特定列层级排序
q2 = q.sort_index(axis = 0, level = "first_lev", ascending=False)
print(q2)
q3 = q.sort_index(axis = 1, level = ["first_col", "second_col"])
print(q3)
结果如下
first_col onion carrot onion carrot
second_col Green Green blue blue yellow
first_lev second_lev
b 22 15 16 17 18 19
11 10 11 12 13 14
a 22 5 6 7 8 9
11 0 1 2 3 4
first_col carrot onion
second_col Green blue yellow Green blue
first_lev second_lev
a 11 1 3 4 0 2
22 6 8 9 5 7
b 11 11 13 14 10 12
22 16 18 19 15 17
三、DataFrame按层级聚合
公式:DataFrame.聚合函数(level = 聚合层级, axis = 0/1)
[注:聚合层级必须与axis相对应;0代表行层级,1代表列层级!!!]
代码如下
###按层级聚合
q4 = q.max(level = "first_lev")
print(q4)
结果如下
first_col onion carrot onion carrot
second_col Green Green blue blue yellow
first_lev
a 5 6 7 8 9
b 15 16 17 18 19
OK~
总结
写在最后,DataFrame和Series的分层索引属于pandas高级应用,希望对你的学习有帮助
这篇博客介绍了Pandas中分层索引的构建,包括Series和DataFrame的构建方法,详细阐述了如何按层级对换和排序,以及如何进行按层级聚合操作。通过实例展示了如何命名、交换和排序分层索引,并提供了相应的代码实现。
1223

被折叠的 条评论
为什么被折叠?



