Pandas常见方法(3)-pandas分层索引构建、按层级对换和排序、按层级聚合

这篇博客介绍了Pandas中分层索引的构建,包括Series和DataFrame的构建方法,详细阐述了如何按层级对换和排序,以及如何进行按层级聚合操作。通过实例展示了如何命名、交换和排序分层索引,并提供了相应的代码实现。

说明:本blog基于python3, pandas 1.3.5, numpy 1.22.0版本


前言

本文主要介绍pandas的分层索引构建,按层级对换和排序,按层级聚合,共3个部分。并附有代码实例。其中分层索引构建由Series和DataFrame两个研究对象组成;其他两个部分都是以DataFrame为基础。

一、分层索引构建

1.1 Series数据结构

我们可以采用如下方式创建分层索引


import pandas as pd
import numpy as np

a = pd.Series([1,2,3,4,5,6], index = [["a", "a", "b", "b", "c", "c"],["11","22","11","22","11","22"]])
print(a)

###结果
#a  11    1
#   22    2
#b  11    3
#   22    4
#c  11    5
#   22    6
#dtype: int64

由此可见,有几层索引,index参数就是长度为几的list,list中的每个元素依然是list,长度必须与Series长度相等!!!

本题如果我们想取出索引为 “b” 的数组

b = a["b"]
print(b)

结果如下

11    3
22    4
dtype: int64

本题如果我们想取出索引为 (“b” ,“11”)的数组

c = a["b","11"]
print(c)

结果如下

3

很好,符合我们预期
其实,与正常Series取某索引的方法相同。

1.2 两层索引的Series转化为DataFrame

然后,我们想把含有两层索引的Series转化为DataFrame,
使用unstack方法, 方法原理是Series外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns

代码如下

###由分层索引的Series转化为DataFrame,外层索引作为新DataFrame的index,内层索引作为新DataFrame的columns

d = a.unstack()
print(d)
print(type(d))

###unstack的反向操作
a = d.stack()
print(a)
print(type(a))

结果如下

   11  22
a   1   2
b   3   4
c   5   6
<class 'pandas.core.frame.DataFrame'>
a  11    1
   22    2
b  11    3
   22    4
c  11    5
   22    6
dtype: int64
<class 'pandas.core.series.Series'>

1.3 DataFrame数据结构

我们新建一个包含两层行索引和两层列索引的DataFrame

代码如下

q = pd.DataFrame(np.array(range(20)).reshape(4,5), index = [["a", "a", "b", "b"],["11","22","11","22"]],
                 columns = [["onion","carrot","onion","carrot","carrot"], ["Green", "Green","blue","blue","yellow"]])
print(q)

结果如下

     onion carrot onion carrot       
     Green  Green  blue   blue yellow
a 11     0      1     2      3      4
  22     5      6     7      8      9
b 11    10     11    12     13     14
  22    15     16    17     18     19

然后我们对新建的DataFrame a按层级对换和排序

二、DataFrame按层级对换和排序

2.1 命名层级

公式1: DataFrame.index.names = 层级的名称列表,列表长度等于层级个数
公式2: DataFrame.columns.names = 层级的名称列表,列表长度等于层级个数

【注:如果对DataFrame类型数据进行层级操作,我们必须首先对层级进行“命名”】

由外到内,分别命名index的层级为 “first_lev”, “second_lev”
由外到内,分别命名column的层级为 “first_col”, “second_col”

###首先必须命名层级
q.index.names = ["first_lev", "second_lev"]
q.columns.names = ["first_col", "second_col"]

2.2 交换层级

公式1: DataFrame.swaplevel(axis = 0, 需要交换的两个属于index的level的名称)
公式2: DataFrame.swaplevel(axis = 1, 需要交换的两个属于columns的level的名称)

【注:只要inplace参数为True,则返回Series或DataFrame的“视图”】

首先交换index两个层级,
代码如下

###交换行层级
q1 = q.swaplevel("first_lev", "second_lev", axis = 0)
print(q1)

结果如下

first_col            onion carrot onion carrot       
second_col           Green  Green  blue   blue yellow
second_lev first_lev                                 
11         a             0      1     2      3      4
22         a             5      6     7      8      9
11         b            10     11    12     13     14
22         b            15     16    17     18     19

交换两个列层级,

###交换列层级
q5 = q.swaplevel("first_col", "second_col", axis = 1)
print(q5)

结果如下

second_col           Green         blue        yellow
first_col            onion carrot onion carrot carrot
first_lev second_lev                                 
a         11             0      1     2      3      4
          22             5      6     7      8      9
b         11            10     11    12     13     14
          22            15     16    17     18     19

2.3 层级排序

公式: DataFrame.sort_values(axis = 0/1,ascending = True/False,inplace = True/False, level = 排序层级的名称/排序层级的名称的列表)

我们分别对q按行层级的first_lev 层进行降序排序 和 对q按列层级first_col 和 second_col 进行升序排序,代码如下

###按特定行层级排序/特定列层级排序
q2 = q.sort_index(axis = 0, level = "first_lev", ascending=False)
print(q2)
q3 = q.sort_index(axis = 1, level = ["first_col", "second_col"])
print(q3)

结果如下

first_col            onion carrot onion carrot       
second_col           Green  Green  blue   blue yellow
first_lev second_lev                                 
b         22            15     16    17     18     19
          11            10     11    12     13     14
a         22             5      6     7      8      9
          11             0      1     2      3      4
first_col            carrot             onion     
second_col            Green blue yellow Green blue
first_lev second_lev                              
a         11              1    3      4     0    2
          22              6    8      9     5    7
b         11             11   13     14    10   12
          22             16   18     19    15   17

三、DataFrame按层级聚合

公式:DataFrame.聚合函数(level = 聚合层级, axis = 0/1)

[注:聚合层级必须与axis相对应;0代表行层级,1代表列层级!!!]

代码如下

###按层级聚合
q4 = q.max(level = "first_lev")
print(q4)

结果如下

first_col  onion carrot onion carrot       
second_col Green  Green  blue   blue yellow
first_lev                                  
a              5      6     7      8      9
b             15     16    17     18     19

OK~


总结

写在最后,DataFrame和Series的分层索引属于pandas高级应用,希望对你的学习有帮助

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Efred.D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值