Pandas使用教程 - Pandas 数据选择与索引:深入理解 loc、iloc 与 ix 的应用

Pandas 数据选择与索引:深入理解 loc、iloc 与 ix 的应用

在数据分析过程中,数据选择与索引操作是 Pandas 最为核心的技能之一。通过灵活地选取数据,我们可以高效地完成数据清洗、转换和分析任务。本章将详细讲解 Pandas 中数据选择与索引的相关方法,包括基于标签的索引(loc)、基于位置的索引(iloc)以及历史上曾经使用但现已弃用的 ix 方法。同时,我们还会介绍如何利用布尔索引和切片技术进行高级数据选择,并通过丰富的 Python 代码示例、数学公式(使用 $ 转义)和 UML 类图展示数据选择的内部逻辑,帮助你全面掌握这一技能。


1. 数据选择与索引的重要性

在处理 DataFrame 或 Series 时,我们往往需要对数据进行筛选、子集提取、更新和过滤等操作。数据选择不仅影响后续的数据分析质量,也决定了程序的运行效率。假设一个 DataFrame D D D 的数据存储在二维矩阵中,其元素记为 D i j D_{ij} Dij,其中 i i i 表示行, j j j 表示列。数据选择可以理解为根据给定的条件 C C C 提取部分子集 D ′ D' D,数学上可表示为

D ′ = { D i j ∣ ( i , j ) ∈ C } D' = \{ D_{ij} \mid (i,j) \in C \} D={Dij(i,j)C}

通过对行和列进行精确定位,我们能够快速访问和操作数据,为后续的聚合、变换和可视化奠定基础。


2. Pandas 索引方法概述

在 Pandas 中,主要有三种索引方法用于数据选择:

  • loc:基于标签的索引方法,用于通过行标签和列名称进行数据选取。
  • iloc:基于位置的索引方法,用于通过行号和列号进行数据选取。
  • ix:历史上同时支持标签和位置索引的方法,但已被弃用,不建议在新代码中使用。

下面,我们将分别详细讲解 lociloc 的使用方法,并简要说明 ix 的使用背景和问题。


3. 基于标签的索引:loc

3.1 loc 的基本原理

loc 方法主要用于基于行标签和列名称进行索引操作。当你使用 loc 时,Pandas 会根据 DataFrame 或 Series 的索引标签来确定所选数据。例如,假设有一个 DataFrame,其行索引为日期或自定义字符串,而列名称为变量名称,使用 loc 可以直观地选择特定日期或变量对应的数据。

公式上,我们可以将 loc 表示为:

D ′ = D . loc [ L r o w , L c o l ] D' = D.\text{loc}[L_{row}, L_{col}] D=D.loc[Lrow,Lcol]

其中, L r o w L_{row} Lrow 为行标签列表, L c o l L_{col} Lcol 为列标签列表。如果只传入行标签,则返回所有列;反之亦然。

3.2 loc 的基本用法

下面通过具体代码示例展示如何使用 loc

import pandas as pd

# 构造一个示例 DataFrame,行索引为自定义字符串,列为 'A', 'B', 'C'
data = {
    "A": [10, 20, 30, 40],
    "B": [50, 60, 70, 80],
    "C": [90, 100, 110, 120]
}
index_labels = ["row1", "row2", "row3", "row4"]
df = pd.DataFrame(data, index=index_labels)
print("完整的 DataFrame:")
print(df)

# 使用 loc 根据行标签选择数据
selected_row = df.loc["row2"]
print("\n通过 loc 选择 'row2' 行的数据:")
print(selected_row)

# 选择多行和指定列
selected_subset = df.loc[["row1", "row3"], ["A", "C"]]
print("\n通过 loc 选择 'row1' 和 'row3' 行,列 'A' 和 'C':")
print(selected_subset)

# 使用布尔条件选择(基于标签的布尔索引)
selected_condition = df.loc[df["A"] > 15]
print("\n通过 loc 选择 A 列大于 15 的所有行:")
print(selected_condition)

在上述代码中,我们可以看到 loc 的灵活性:既可以通过单个标签,也可以通过标签列表或布尔条件进行数据选取。

3.3 loc 的切片操作

当使用 loc 进行切片时,注意切片操作是闭区间的,即包含切片结束标签。例如:

# 假设行标签为 'row1' 到 'row3'(包含 'row3')
slice_loc = df.loc["row1":"row3"]
print("\n使用 loc 进行切片,结果包含 'row3':")
print(slice_loc)

这种特性在进行基于标签的范围选取时需要特别留意。


4. 基于位置的索引:iloc

4.1 iloc 的基本原理

iloc 方法用于基于整数位置进行索引,类似于 NumPy 数组的切片操作。当使用 iloc 时,不依赖于标签,而是根据数据在 DataFrame 中的物理位置来选取。例如,iloc[0, 1] 表示选择第一行第二列的数据。

数学上,iloc 可以表示为:

D ′ = D . iloc [ i : j , k : l ] D' = D.\text{iloc}[i:j, k:l] D=D.iloc[i:j,k:l]

其中,i:j 表示行的起始位置和结束位置(结束位置不包含在内),同理 k:l 表示列的位置切片。

4.2 iloc 的基本用法

下面通过具体代码示例展示如何使用 iloc

# 使用 iloc 选择第一行数据(位置索引 0)
first_row = df.iloc[0]
print("\n通过 iloc 选择第一行数据:")
print(first_row)

# 使用 iloc 选择第二行第三列数据(位置索引 [1, 2])
value = df.iloc[1, 2]
print("\n通过 iloc 选择第二行第三列的值:")
print(value)

# 使用 iloc 进行切片操作:选择前两行所有列(注意结束位置不包含)
slice_iloc = df.iloc[0:2]
print("\n通过 iloc 选择前两行所有列:")
print(slice_iloc)

# 选择多行多列
subset_iloc = df.iloc[[0, 2], [0, 2]]
print("\n通过 iloc 选择第1和第3行以及第1和第3列:")
print(subset_iloc)

在使用 iloc 时,需牢记其切片规则与 Python 原生列表和 NumPy 数组一致,均为半开区间 [start, stop)


5. 关于 ix 的说明

5.1 ix 的历史背景

在 Pandas 的早期版本中,ix 方法曾经被用于同时支持标签和位置索引。然而,由于混合使用标签和位置的索引方式可能引发混淆和潜在错误(尤其在索引为整数的情况下),Pandas 开发团队最终决定弃用 ix 方法。

5.2 ix 被弃用的原因

当 DataFrame 的行索引为整数时,使用 ix 可能不确定是按标签还是按位置进行索引,容易引发意外错误。为了避免这种二义性,从 Pandas 0.20 版本开始,官方建议开发者使用 loc(标签索引)和 iloc(位置索引)进行明确的数据选择。

例如,下面是一个使用 ix 可能导致混淆的场景:

# 假设 DataFrame 的行索引为 [0, 1, 2, 3]
df_numeric = pd.DataFrame(data, index=[0, 1, 2, 3])
# 使用 ix 进行索引(不建议使用)
# selected = df_numeric.ix[1]  # 可能存在二义性,究竟是标签 1 还是位置 1?

# 建议使用明确的方法:
selected_by_label = df_numeric.loc[1]
selected_by_position = df_numeric.iloc[1]

为了代码的可读性和稳定性,强烈建议在新项目中避免使用 ix,转而使用更明确的 lociloc


6. 布尔索引与条件选择

除了标签和位置索引外,Pandas 还支持布尔索引。布尔索引通过生成布尔型 Series 来确定哪些行或列满足特定条件,从而选出所需数据。

6.1 基本用法

假设有一列数据存储着某个数值,我们可以通过条件判断生成布尔 Series,再利用该布尔 Series 进行过滤:

# 过滤出 A 列大于 20 的所有行
condition = df["A"] > 20
filtered_df = df.loc[condition]
print("\n使用布尔索引选择 A 列大于 20 的数据:")
print(filtered_df)

布尔索引可以与 lociloc 配合使用,在复杂条件下可以组合多个布尔条件进行数据筛选,例如使用逻辑运算符 &(与)、|(或)。

6.2 多条件筛选示例

# 选择 A 列大于 15 且 B 列小于 80 的行
multi_condition = (df["A"] > 15) & (df["B"] < 80)
filtered_multi = df.loc[multi_condition]
print("\n使用布尔索引进行多条件筛选:")
print(filtered_multi)

通过这种方式,我们可以实现非常灵活和复杂的数据过滤操作。


7. 数据切片中的步长与高级索引

在使用 ilocloc 进行切片操作时,我们可以指定步长,从而获取间隔一定行或列的数据。例如:

# 使用 iloc 选择所有行,但每隔一行取一次(步长为 2)
sliced_with_step = df.iloc[::2]
print("\n使用 iloc 进行步长切片,每隔一行选择一次:")
print(sliced_with_step)

类似的操作也适用于列切片。数学上,对于一个列表 L L L,切片操作可表示为

L [ s t a r t : s t o p : s t e p ] L[start:stop:step] L[start:stop:step]

其中,start 为起始索引,stop 为结束索引(不包含在内),step 为步长。


8. 多级索引下的数据选择

在实际项目中,常常会使用多级索引(MultiIndex)来表示分层数据结构。对于多级索引 DataFrame,可以利用 loc 进行更复杂的选择操作。

8.1 创建多级索引 DataFrame 示例

# 构造一个简单的多级索引 DataFrame
arrays = [
    ["A", "A", "B", "B"],
    ["one", "two", "one", "two"]
]
index = pd.MultiIndex.from_arrays(arrays, names=["外层", "内层"])
df_multi = pd.DataFrame({
    "数据": [1, 2, 3, 4]
}, index=index)
print("\n多级索引 DataFrame:")
print(df_multi)

8.2 多级索引的选择操作

利用 loc,我们可以根据多个级别的标签进行选择:

# 选择外层标签为 'A' 的所有数据
selected_multi = df_multi.loc["A"]
print("\n选择外层标签为 'A' 的数据:")
print(selected_multi)

# 选择外层标签为 'B' 且内层标签为 'two' 的数据
selected_multi_specific = df_multi.loc[("B", "two")]
print("\n选择外层 'B' 内层 'two' 的数据:")
print(selected_multi_specific)

多级索引的数据选择为数据聚合和分组操作提供了强大的支持,使得复杂数据结构的操作变得更加直观和高效。


9. 进阶索引方法:at 与 iat

在需要进行单个元素快速访问时,Pandas 还提供了 atiat 方法,分别对应 lociloc 的高效单值访问接口。

9.1 使用 at

at 用于基于标签的单个元素访问,其速度比 loc 快,适用于频繁查询单个值的场景。

# 使用 at 获取 'row3' 行,'B' 列的单个值
value_at = df.at["row3", "B"]
print("\n使用 at 获取 'row3' 行 'B' 列的值:")
print(value_at)

9.2 使用 iat

iat 用于基于位置的单个元素访问,适用于按整数位置查询单个数据。

# 使用 iat 获取第二行第三列的值
value_iat = df.iat[1, 2]
print("\n使用 iat 获取第二行第三列的值:")
print(value_iat)

这些方法在大规模循环访问数据时可以显著提高访问效率。


10. UML 类图:DataFrame 与索引相关方法

为了帮助大家从面向对象的角度理解 Pandas 中数据选择与索引的方法,我们通过下面的 UML 类图展示 DataFrame 类中与索引操作相关的一部分接口:

DataFrame
+Index index
+Index columns
+ndarray values
+tuple shape
+DataFrame loc[label, columns]
+DataFrame iloc[position, columns]
+DataFrame at[label, column]
+DataFrame iat[position, column]
+DataFrame query(expr)
+DataFrame head(n)
+DataFrame tail(n)

该 UML 类图展示了 DataFrame 提供的基本索引和数据选择方法,为理解 Pandas 内部数据访问逻辑提供了直观参考。


11. 实战案例:销售数据中的数据选择

下面通过一个实战案例,展示如何利用上述索引方法对销售数据进行筛选、过滤和提取操作。

11.1 数据准备

假设我们有一份销售数据 CSV 文件 sales.csv,其内容包括:

  • 日期(作为行索引)
  • 产品
  • 地区
  • 销售额
  • 利润

首先,我们读取数据并设置合适的索引:

import pandas as pd

# 读取销售数据,并将日期列设置为索引
df_sales = pd.read_csv("data/sales.csv", parse_dates=["日期"], index_col="日期")
print("销售数据预览:")
print(df_sales.head())

11.2 基于标签和位置的选择

选择特定日期的数据

假设我们想选择某一天(例如 2025-01-15)的所有销售记录:

# 使用 loc 选择指定日期数据
data_on_date = df_sales.loc["2025-01-15"]
print("\n2025-01-15 的销售数据:")
print(data_on_date)
选择特定产品和地区的数据

假设我们需要选择产品为 产品A 且地区为 北区 的记录,可以使用布尔索引和 loc 结合:

filtered_data = df_sales.loc[(df_sales["产品"] == "产品A") & (df_sales["地区"] == "北区")]
print("\n产品为 '产品A' 且地区为 '北区' 的销售数据:")
print(filtered_data)
通过 iloc 选择前 10 行数据

有时我们希望仅查看数据的部分行,例如前 10 行记录:

first_10_rows = df_sales.iloc[:10]
print("\n前 10 行销售数据:")
print(first_10_rows)

11.3 使用 at 与 iat 进行单个元素访问

假设我们需要查询特定日期和产品对应的销售额,可以利用 at 和 iat 提高访问效率:

# 假设我们已知日期 '2025-01-15' 存在于索引中,并且产品 '产品A' 在该日期的某行出现
# 使用 loc 首先定位到这一行(例如,我们通过布尔索引找到第一条记录)
row_data = df_sales.loc["2025-01-15"]
# 假定我们需要获取该行中 '销售额' 列的值
if not row_data.empty:
    sales_value = row_data.iloc[0]["销售额"]  # 这里使用 iloc 获取第一个记录
    print("\n使用 at/iAt 方式获取单个值示例:")
    print("销售额:", sales_value)

通过上述实战案例,我们可以看出在实际业务场景中,基于标签和位置的数据选择能够帮助我们高效地提取和处理目标数据。


12. 总结与扩展

在本章中,我们系统地介绍了 Pandas 中数据选择与索引的各种方法,具体内容包括:

  • 基于标签的索引 loc:如何利用行和列的标签进行数据选取,包括单个标签、多标签和切片操作。
  • 基于位置的索引 iloc:如何通过整数位置对数据进行精确选取和切片,强调其半开区间的切片规则。
  • 弃用的 ix 方法:了解 ix 的历史背景及其带来的二义性问题,建议使用 lociloc 替代。
  • 布尔索引和多条件筛选:利用布尔条件实现灵活的数据过滤,支持复杂逻辑组合。
  • 进阶索引方法:介绍了 atiat 方法,用于单个数据的快速访问。
  • 多级索引的数据选择:演示了在多级索引 DataFrame 中如何使用 loc 进行数据提取。
  • 实战案例:结合销售数据展示了如何利用各种索引方法进行数据选择、过滤和提取,满足实际业务需求。

通过本章的学习,你应该能够熟练地在 Pandas 中进行数据选择与索引操作,为后续的数据清洗、特征工程和分析任务提供坚实支持。数据选择不仅是获取目标数据的重要手段,也是保证数据处理高效性和准确性的关键步骤。


13. 扩展阅读与建议

为了进一步加深对 Pandas 数据选择与索引技术的理解,建议参考以下资源:

  • Pandas 官方文档:详细介绍了 locilocatiat 的使用方法及参数说明。
    citeturn0search0
  • 《Python 数据科学手册》:提供了大量实际案例和高级索引技巧,帮助你在复杂数据场景中灵活使用索引技术。
    citeturn0search0
  • 相关博客和视频教程:在网络上有很多优秀的教程和实战案例,可以帮助你更好地理解多级索引和布尔索引的应用场景。
    citeturn0search0

建议大家在实际项目中多加练习,通过编写脚本和交互式 Notebook 进行实验,验证各种索引方法的效果,并结合实际数据情况调整和优化数据选择策略。


14. 总结

本章详细介绍了 Pandas 中数据选择与索引的各种方法,从 lociloc 的基本用法,到布尔索引、多条件筛选以及进阶的单值访问方法(atiat),再到多级索引的应用场景,全面覆盖了数据提取的各个方面。通过丰富的代码示例和数学公式说明,我们阐述了如何利用标签和位置索引高效地处理数据,并通过实战案例展示了这些方法在实际业务数据中的应用。掌握这些技能后,你将在数据清洗、转换和分析中如虎添翼,能够迅速从海量数据中提取出对决策有价值的信息。

不断探索和实践 Pandas 的索引操作,不仅可以提升代码的可读性和运行效率,更能为后续数据建模、机器学习及数据可视化提供坚实基础。希望本章内容能帮助你全面掌握数据选择与索引的技巧,推动你在数据科学领域取得更高成就!


以上就是关于 基础篇6:数据选择与索引 (loc, iloc, ix) 的详细讲解。通过本章的学习,你将能够灵活运用各类索引方法,高效地访问和操作数据,为数据分析项目的成功奠定坚实基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

闲人编程

你的鼓励就是我最大的动力,谢谢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值