Pandas常见方法（3）-pandas分层索引构建、按层级对换和排序、按层级聚合

原创已于 2022-02-04 17:43:28 修改 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #数据挖掘

于 2022-01-11 19:36:34 首次发布

Pandas学习专栏收录该内容

6 篇文章

订阅专栏

这篇博客介绍了Pandas中分层索引的构建，包括Series和DataFrame的构建方法，详细阐述了如何按层级对换和排序，以及如何进行按层级聚合操作。通过实例展示了如何命名、交换和排序分层索引，并提供了相应的代码实现。

说明：本blog基于python3， pandas 1.3.5， numpy 1.22.0版本

前言

本文主要介绍pandas的分层索引构建，按层级对换和排序，按层级聚合，共3个部分。并附有代码实例。其中分层索引构建由Series和DataFrame两个研究对象组成；其他两个部分都是以DataFrame为基础。

一、分层索引构建

1.1 Series数据结构

我们可以采用如下方式创建分层索引


import pandas as pd
import numpy as np

a = pd.Series([1,2,3,4,5,6], index = [["a", "a", "b", "b", "c", "c"],["11","22","11","22","11","22"]])
print(a)

###结果
#a  11    1
#   22    2
#b  11    3
#   22    4
#c  11    5
#   22    6
#dtype: int64

由此可见，有几层索引，index参数就是长度为几的list，list中的每个元素依然是list，长度必须与Series长度相等！！！

本题如果我们想取出索引为 “b” 的数组

b = a["b"]
print(b)

结果如下

11    3
22    4
dtype: int64

本题如果我们想取出索引为（“b” ，“11”）的数组

c = a["b","11"]
print(c)

结果如下

很好，符合我们预期
其实，与正常Series取某索引的方法相同。

1.2 两层索引的Series转化为DataFrame

然后，我们想把含有两层索引的Series转化为DataFrame，
使用unstack方法，方法原理是Series外层索引作为新DataFrame的index，内层索引作为新DataFrame的columns

代码如下

###由分层索引的Series转化为DataFrame，外层索引作为新DataFrame的index，内层索引作为新DataFrame的columns

d = a.unstack()
print(d)
print(type(d))

###unstack的反向操作
a = d.stack()
print(a)
print(type(a))

结果如下

   11  22
a   1   2
b   3   4
c   5   6
<class 'pandas.core.frame.DataFrame'>
a  11    1
   22    2
b  11    3
   22    4
c  11    5
   22    6
dtype: int64
<class 'pandas.core.series.Series'>

1.3 DataFrame数据结构

我们新建一个包含两层行索引和两层列索引的DataFrame

代码如下

q = pd.DataFrame(np.array(range(20)).reshape(4,5), index = [["a", "a", "b", "b"],["11","22","11","22"]],
                 columns = [["onion","carrot","onion","carrot","carrot"], ["Green", "Green","blue","blue","yellow"]])
print(q)

结果如下

     onion carrot onion carrot       
     Green  Green  blue   blue yellow
a 11     0      1     2      3      4
  22     5      6     7      8      9
b 11    10     11    12     13     14
  22    15     16    17     18     19

然后我们对新建的DataFrame a按层级对换和排序

二、DataFrame按层级对换和排序

2.1 命名层级

公式1： DataFrame.index.names = 层级的名称列表，列表长度等于层级个数
公式2： DataFrame.columns.names = 层级的名称列表，列表长度等于层级个数

【注：如果对DataFrame类型数据进行层级操作，我们必须首先对层级进行“命名”】

由外到内，分别命名index的层级为 “first_lev”, “second_lev”
由外到内，分别命名column的层级为 “first_col”, “second_col”

###首先必须命名层级
q.index.names = ["first_lev", "second_lev"]
q.columns.names = ["first_col", "second_col"]

2.2 交换层级

公式1: DataFrame.swaplevel(axis = 0, 需要交换的两个属于index的level的名称)
公式2: DataFrame.swaplevel(axis = 1, 需要交换的两个属于columns的level的名称)，
【注：只要inplace参数为True，则返回Series或DataFrame的“视图”】

首先交换index两个层级，
代码如下

###交换行层级
q1 = q.swaplevel("first_lev", "second_lev", axis = 0)
print(q1)

结果如下

first_col            onion carrot onion carrot       
second_col           Green  Green  blue   blue yellow
second_lev first_lev                                 
11         a             0      1     2      3      4
22         a             5      6     7      8      9
11         b            10     11    12     13     14
22         b            15     16    17     18     19

交换两个列层级，

###交换列层级
q5 = q.swaplevel("first_col", "second_col", axis = 1)
print(q5)

结果如下

second_col           Green         blue        yellow
first_col            onion carrot onion carrot carrot
first_lev second_lev                                 
a         11             0      1     2      3      4
          22             5      6     7      8      9
b         11            10     11    12     13     14
          22            15     16    17     18     19

2.3 层级排序

公式: DataFrame.sort_values(axis = 0/1,ascending = True/False,inplace = True/False, level = 排序层级的名称/排序层级的名称的列表)

我们分别对q按行层级的first_lev 层进行降序排序和对q按列层级first_col 和 second_col 进行升序排序，代码如下

###按特定行层级排序/特定列层级排序
q2 = q.sort_index(axis = 0, level = "first_lev", ascending=False)
print(q2)
q3 = q.sort_index(axis = 1, level = ["first_col", "second_col"])
print(q3)

结果如下

first_col            onion carrot onion carrot       
second_col           Green  Green  blue   blue yellow
first_lev second_lev                                 
b         22            15     16    17     18     19
          11            10     11    12     13     14
a         22             5      6     7      8      9
          11             0      1     2      3      4
first_col            carrot             onion     
second_col            Green blue yellow Green blue
first_lev second_lev                              
a         11              1    3      4     0    2
          22              6    8      9     5    7
b         11             11   13     14    10   12
          22             16   18     19    15   17

三、DataFrame按层级聚合

公式：DataFrame.聚合函数(level = 聚合层级， axis = 0/1)

[注：聚合层级必须与axis相对应；0代表行层级，1代表列层级！！！]

代码如下

###按层级聚合
q4 = q.max(level = "first_lev")
print(q4)

结果如下

first_col  onion carrot onion carrot       
second_col Green  Green  blue   blue yellow
first_lev                                  
a              5      6     7      8      9
b             15     16    17     18     19

OK~