组队学习2：Pandas索引（一）（基于Python）

最新推荐文章于 2022-08-23 11:23:53 发布

原创最新推荐文章于 2022-08-23 11:23:53 发布 · 404 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #数据分析

组队学习·数据竞赛专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了Python数据处理库Pandas中的单级索引操作，包括loc、iloc方法和[]操作符的使用，涵盖单行、多行、单列、多列、联合索引及布尔索引等，旨在帮助读者深入理解Pandas数据操作。

组队学习介绍

最近事情太多（以及人太懒），好久没有空更新博客，遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas，该模块用于数据导入及整理的模块，对数据挖掘前期数据的处理工作十分有用。

学习小组的时间安排大致如下：

Task01：Pandas基础（1天）
Task02：索引（3天）
Task03：分组（2天）
Task04：变形（2天）
Task05：合并（2天）
Task06：综合练习（1天）

学习小组的参考资料是Datawhale-GYH助教撰写的¹。

本博文的笔记概览如下所示：

导入数据：

import numpy as np
import pandas as pd

# 规定路径
path = '/Users/sunsimiao/Documents/2020自学/202004组队学Pandas/joyful-pandas-master/data/'
df = pd.read_csv(path+'table.csv',index_col='ID')
df

ID	School	Class	Gender	Address	Height	Weight	Math Physics						
1101	S_1	C_1	M	street_1	173	63	34.0	A+
1102	S_1	C_1	F	street_2	192	73	32.5	B+
1103	S_1	C_1	M	street_2	186	82	87.2	B+
1104	S_1	C_1	F	street_2	167	81	80.4	B-
1105	S_1	C_1	F	street_4	159	64	84.8	B+
1201	S_1	C_2	M	street_5	188	68	97.0	A-
1202	S_1	C_2	F	street_4	176	94	63.5	B-
1203	S_1	C_2	M	street_6	160	53	58.8	A+
1204	S_1	C_2	F	street_5	162	63	33.8	B
1205	S_1	C_2	F	street_6	167	63	68.4	B-
1301	S_1	C_3	M	street_4	161	68	31.5	B+
1302	S_1	C_3	F	street_1	175	57	87.7	A-
1303	S_1	C_3	M	street_7	188	82	49.7	B
1304	S_1	C_3	M	street_2	195	70	85.2	A
1305	S_1	C_3	F	street_5	187	69	61.7	B-
2101	S_2	C_1	M	street_7	174	84	83.3	C
2102	S_2	C_1	F	street_6	161	61	50.6	B+
2103	S_2	C_1	M	street_4	157	61	52.5	B-
2104	S_2	C_1	F	street_5	159	97	72.2	B+
2105	S_2	C_1	M	street_4	170	81	34.2	A
2201	S_2	C_2	M	street_5	193	100	39.1	B
2202	S_2	C_2	F	street_7	194	77	68.5	B+
2203	S_2	C_2	M	street_4	155	91	73.8	A+
2204	S_2	C_2	M	street_1	175	74	47.2	B-
2205	S_2	C_2	F	street_7	183	76	85.4	B
2301	S_2	C_3	F	street_4	157	78	72.3	B+
2302	S_2	C_3	M	street_5	171	88	32.7	A
2303	S_2	C_3	F	street_7	190	99	65.9	C
2304	S_2	C_3	F	street_6	164	81	95.5	A-
2305	S_2	C_3	M	street_4	187	73	48.9	B
2401	S_2	C_4	F	street_2	192	62	45.3	A
2402	S_2	C_4	M	street_7	166	82	48.7	B
2403	S_2	C_4	F	street_6	158	60	59.7	B+
2404	S_2	C_4	F	street_2	160	84	67.7	B
2405	S_2	C_4	F	street_6	193	54	47.6	B

一、单级索引

1. loc方法、iloc方法、[ ]操作符

最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[ ]也具有很大的便利性，各有特点。

（1）loc方法

注意：所有在loc中使用的切片全部包含右端点！

① 单行索引：

提出了ID（索引）为“1103”的观测：

df.loc[1103]

School          S_1
Class           C_1
Gender            M
Address    street_2
Height          186
Weight           82
Math           87.2
Physics          B+
Name: 1103, dtype: object

② 多行索引：

先用[ ]将所要提取的样本的索引号框起来。提出了ID（索引）为“1102”和“2304”的观测：

df.loc[[1102,2304]]

在这里插入图片描述
注意：所有在loc中使用的切片全部包含右端点！这是因为如果作为Pandas的使用者，那么肯定不太关心最后一个标签再往后一位是什么，但是如果是左闭右开，那么就很麻烦，先要知道再后面一列的名字是什么，非常不方便，因此Pandas中将loc设计为左右全闭。

提取索引号从1304到2103的观测（不需要用[ ]）：

df.loc[1304:2103].head()

在这里插入图片描述
提取索引号从1304到最后的观测（不需要用[ ]）：

df.loc[1304:]

在这里插入图片描述

提取索引号从2402倒着往上取（-1的含义）所有的观测（不需要用[ ]）：

df.loc[2402::-1] # a:b:-1从a开始取到b（但不包括b）倒着取

在这里插入图片描述

③ 单列索引：

提出了列名为Height的列：

df.loc[:,'Height'].head()

ID
1101    173
1102    192
1103    186
1104    167
1105    159
Name: Height, dtype: int64

④ 多列索引：

提出了列名为Height和Math的列：

df.loc[:,['Height','Math']].head()

提出了列名为Height到Math的列：

df.loc[:,'Height':'Math'].head()

提出了列名为Height到最后的列：

df.loc[:,'Height':].head()

提出了列名为Height开始往前倒着取所有的列：

df.loc[:,'Height'::-1].head()

⑤ 联合索引：

提出了索引号从“1102”到“2401”每隔3个索引号取一次，列为Height到Math的内容：

df.loc[1102:2401:3,'Height':'Math'].head()

在这里插入图片描述

⑥ 函数式索引：

提出Gender=M的列。

df.loc[lambda x: x['Gender'] =='M'].head() # loc中使用的函数，传入参数就是前面的df

在这里插入图片描述
这里的例子表示，loc中能够传入函数，并且函数的输入值是整张表，输出为标量、切片、合法列表（元素出现在索引中）、合法索引。

def f(x):
    return [1101,1103]
df.loc[f]

在这里插入图片描述

⑦ 布尔索引（将重点在第2节介绍）

提取Address取值在['street_7','street_4']中的样本。

df.loc[df['Address'].isin(['street_7','street_4'])].head()

提取Address那列取street_4和street_7的样本。用 $i$ 在Address那列里所有字符型取值中循环， $i [- 1]$ 取字符串倒数第一个字母。

df.loc[[True if i[-1]=='4' or i[-1]=='7' else False for i in df['Address'].values]].head()

小节：本质上说，loc中能传入的只有布尔列表和索引子集构成的列表，只要把握这个原则就很容易理解上面那些操作。

（2）iloc方法

注意与loc不同，切片右端点不包含。

① 单行索引：

取索引位置为3的观测（注意：索引位置从0开始排序）：

df.iloc[3]

② 多行索引：

iloc取样本是左闭右开的，因此取[3:5]即是取第3、4个样本：

df.iloc[3:5]

③ 单列索引：

取索引位置为3的列（注意：索引位置从0开始排序）：

df.iloc[:,3].head()

④ 多列索引：

从第7列Physics开始隔两个倒着取列：

df.iloc[:,7::-2].head()

⑤ 混合索引：

从第3行开始隔4行取一个样本，从第7列开始隔2个倒着取一列：

df.iloc[3::4,7::-2].head()

⑥ 函数式索引：

取索引位置为3的观测：

df.iloc[lambda x:[3]]

在这里插入图片描述
上面这条代码与下面这条代码一致：

df.iloc[[3]]

在这里插入图片描述
小节：由上所述，iloc中接收的参数只能为整数或整数列表，不能使用布尔索引。

# df.iloc[df['School']=='S_1'].head() #报错
df.iloc[(df['School']=='S_1').values].head()

在这里插入图片描述

（3） [ ]操作符

（3.1）Series的[ ]操作

① 单元素索引：

s = pd.Series(df['Math'], index=df.index)
s[1101] # 使用的是索引标签

② 多行索引：

区别：
使用的是绝对位置的整数切片，与元素无关，这里容易混淆。

s[0:4]

使用索引标签就无法提取切片。

s[1101:1104]

③ 函数式索引：

注意使用lambda函数时，直接切片（如：s[lambda x: 16::-6]）就报错，此时使用的不是绝对位置切片，而是元素切片，非常易错。

s[lambda x: x.index[16::-6]]

④ 布尔索引：

取Series中value>80的切片：

s[s>80]

注意：如果不想陷入困境，请不要在行索引为浮点时使用[ ]操作符，因为在Series中[ ]的浮点切片并不是进行位置比较，而是值比较，非常特殊。

s_int = pd.Series([1,2,3,4],index=[1,3,5,6])
s_float = pd.Series([1,2,3,4],index=[1.,3.,5.,6.])
s_int

在这里插入图片描述

s_float

在这里插入图片描述
在索引号为整数的Series中，这里3是索引位置：

s_int[3:]

在这里插入图片描述
在索引号为浮点数的Series中，这里3是索引号的内容：

s_float[3:]

在这里插入图片描述
单独取一个元素时，不管是整数型还是浮点数型的索引，[ ]中都是索引号：

s_int[6]

s_float[6]

Series索引类别	取整数切片	取单独一个元素
整数型	`s_int[a:]`，a是索引位置	`s_int[a]`，a是索引内容
浮点数型	`s_float[a:]`，a是索引号的内容	`s_float[a]`，a是索引内容

（3.2）DataFrame的[]操作

① 单行索引：

[ ]使用了绝对位置切片（左闭右开）：

df[1:2]
# 这里非常容易写成df['label']，会报错

在这里插入图片描述
如果想要通过索引号的值获得某一个元素，可用如下get_loc方法：

row = df.index.get_loc(1102) # 得到1102的索引位置
df[row:row+1]

在这里插入图片描述

② 多行索引：

用切片，如果是选取指定的某几行，推荐使用loc，否则很可能报错。

df[3:5]

③ 单列索引：

df['School'].head()

④ 多列索引：

df[['School','Math']].head()

⑤函数式索引：

df[lambda x: ['Math','Physics']].head()

⑥ 布尔索引：

df[df['Gender']=='F'].head()

小节：一般来说，[ ]操作符常用于列选择或布尔选择，尽量避免行的选择。

Dataframe的索引问题

目的	loc	iloc	[ ]	区别	注意
单行索引	`df.loc[1103]`	`df.iloc[2]`	`df[2:3]`	1.`loc`：索引标签；2.`iloc`：位置索引；3.`[ ]`：位置索引，取第a行要写成[a:a+1] ，左闭右开	`loc`是直接拿索引的内容来取行；`iloc`和`[ ]`都是利用索引的位置来取行，且`[ ]`即使取一行也要写成区间形式（左闭右开）
多行索引	`df.loc[[1102,1104]]`	`df.iloc[[1,3]]`	-	1.`loc`：用`[ ]`把要提取的行包起来；2.`iloc`：用`[ ]`把要提取的行包起来	`loc`和`iloc`都可以用`[ ]`把要取的行数来取行，但`[ ]`不可以
	`df.loc[1304:2103:1]`	`df.iloc[13:18:1]`	`df[13:18:1]`	1.`loc`：索引标签，左右都闭；2.`iloc`：位置索引，左闭右开；3.`[ ]`：位置索引，左闭右开	`loc`是根据`df.loc[a:b:c]`从a到b（左闭右闭）隔着c取，c为1时可以默认不写；`iloc`和`[ ]`都是根据`df.iloc[a:b:c]/df[a:b:c]`从a到b（左闭右开）隔着c取，c为1时可以默认不写
	`df.loc[1304:]`	`df.iloc[13:]`	`df[13:]`	1.`loc`：索引标签，左右都闭；2.`iloc`：位置索引，左闭右开；3.`[ ]`：位置索引，左闭右开	-
单列索引	`df.loc[:,'Height']`	`df.iloc[:,4]`	`df['Height']`	1.`loc`：索引标签；2.`iloc`：位置索引；3.`[ ]`：索引标签	`loc`是直接拿列的内容来取列；`iloc`和`[ ]`都是利用索引的位置来取列
多列索引	`df.loc[:,['Height','Math']]`	`df.iloc[:,[4,6]]`	`df[['Height','Math']]`	1.`loc`：索引标签；2.`iloc`：位置索引；3.`[ ]`：位置索引	`loc`、`iloc`和`[ ]`都可以用`[ ]`把要取的行数来取列
	`df.loc[:,'Height':'Math':1]`	`df.iloc[:,4:7:1]`	-	1.`loc`：索引标签，左闭右闭；2.`iloc`：位置索引，左闭右开	`loc`是根据`df.loc[a:b:c]`从a到b（左闭右闭）隔着c取，c为1时可以默认不写；`iloc`都是根据`df.iloc[a:b:c]`从a到b（左闭右开）隔着c取，c为1时可以默认不写
	`df.loc[:,'Height':]`	`df.iloc[:,4:]`	-	1.`loc`：索引标签，左闭右闭；2.`iloc`：位置索引，左闭右开	-
	`df.loc[:,'Height':'Class':-1]`	`df.iloc[:,4:0:-1]`	-	1.`loc`：索引标签，`a:b:c`从a到b（左闭右闭）隔c个选一列；2.`iloc`：位置索引，`a:b:c`从a到b（左闭右开）隔c个选一列	c为正就是从左到右隔着选，为负就是从右到左隔着选
联合索引	`df.loc[1102:1301:1,'Height':'Math']`	`df.iloc[1:11:1,4:7:1]`	-	1.`loc`：索引标签，`a:b:c`从a到b（左闭右闭）隔c个选一行/列；2.`iloc`：位置索引，`a:b:c`从a到b（左闭右开）隔c个选一行/列	-
函数式索引	`df.loc[lambda x: x['Gender'] =='M']`	-	`df[lambda x: x['Gender'] =='M']`	-	-
	`df.loc[lambda x:[1104]]`	`df.iloc[lambda x:[3]]`	-	`loc`是直接拿索引的内容来取行；`iloc`都是利用索引的位置来取行	-
	`df.loc[:,lambda x: ['Math','Physics']]`	`df.iloc[:,lambda x: [6,7]]`	`df[lambda x: ['Math','Physics']]`	-	`loc`、`iloc`和`[ ]`都可以用`[ ]`把要取的行数来取列
布尔索引	`df.loc[df['Address'].isin(['street_7','street_4'])]`	`df.iloc[df['Address'].isin(['street_7','street_4']).values]`	`df[df['Address'].isin(['street_7','street_4'])]`	-	`df['Gender']=='M'`是`TRUE`和`FALSE`构成的Series，`(df['Gender']=='M').values`转化为`TRUE`和`FALSE`构成的Array，`iloc`不能接受Series但能接受Array
	`df.loc[df['Gender'] =='M']`	`df.iloc[(df['Gender']=='M').values]`	`df[df['Gender'] =='M']`	-	`df.iloc[df['Gender']=='M']`报错

2. 布尔索引

（1）布尔符号：’&’,’|’,’~’：分别代表和and，或or，取反not

df[(df['Gender']=='F')&(df['Address']=='street_2')].head()

在这里插入图片描述

df[(df['Math']>85)|(df['Address']=='street_7')].head()

在这里插入图片描述

df[~((df['Math']>75)|(df['Address']=='street_1'))].head() # ～取反

在这里插入图片描述 loc和[ ]中相应位置都能使用布尔列表选择：

df.loc[df['Math']>60,df.columns=='Physics'].head()

在这里插入图片描述
思考：为什么df.loc[df['Math']>60,(df[:8]['Address']=='street_6').values].head()得到和上述结果一样？values能去掉吗？

df.loc[df['Math']>60,(df[:8]['Address']=='street_6').values].head()

在这里插入图片描述

（2） isin方法

df[df['Address'].isin(['street_1','street_4'])&df['Physics'].isin(['A','A+'])]

在这里插入图片描述
上面也可以用字典方式写：

df[df[['Address','Physics']].isin({'Address':['street_1','street_4'],'Physics':['A','A+']}).all(1)]

在这里插入图片描述
all与&的思路是类似的，其中的1代表按照跨列方向判断是否全为True。

3. 快速标量索引

当只需要取一个元素时，at和iat方法能够提供更快的实现：

display(df.at[1101,'School'])
display(df.loc[1101,'School']) # 不带i的后面要放索引内容
display(df.iat[0,0])
display(df.iloc[0,0]) # 带i的后面要放索引位置
# 可尝试去掉注释对比时间
# %timeit df.at[1101,'School']
# %timeit df.loc[1101,'School']
# %timeit df.iat[0,0]
# %timeit df.iloc[0,0]

在这里插入图片描述

4. 区间索引

此处介绍并不是说只能在单级索引中使用区间索引，只是作为一种特殊类型的索引方式，在此处先行介绍。

（1）利用interval_range方法

interval_range函数的closed参数可选’left’‘right’‘both’‘neither’，默认左开右闭。

pd.interval_range(start=0,end=5)

在这里插入图片描述

periods参数控制区间个数，freq控制步长。

pd.interval_range(start=0,periods=8,freq=5)

在这里插入图片描述

（2）利用cut将数值列转为区间为元素的分类变量，例如统计数学成绩的区间情况：

把数学成绩归类到bins所生成的区间里。

math_interval = pd.cut(df['Math'], bins=[0,40,60,80,100])
# 注意，如果没有类型转换，此时并不是区间类型，而是category类型
math_interval.head()

在这里插入图片描述

（3）区间索引的选取

df_i = df.join(math_interval, rsuffix='_interval')[['Math','Math_interval']]\ # \为换行符号
            .reset_index().set_index('Math_interval')
# 字符串。用于右侧数据框的重复列。把重复列重新命名，原来的列名+字符串【如果有重复列，必须添加这个参数】
df_i.head()

在这里插入图片描述

df_i.loc[65].head() # 包含该值就会被选中

在这里插入图片描述

df_i.loc[[65,90]]

在这里插入图片描述
如果想要选取某个区间，先要把分类变量转为区间变量，再使用overlap方法：

# df_i.loc[pd.Interval(70,75)].head() 报错
df_i[df_i.index.astype('interval').overlaps(pd.Interval(70, 85))]

在这里插入图片描述

参考资料

@GYHHAHA的githubhttps://github.com/datawhalechina/joyful-pandas ↩︎