如何在 Pandas 中遍历 DataFrame 的行？

最新推荐文章于 2025-09-14 10:00:38 发布

原创最新推荐文章于 2025-09-14 10:00:38 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

在数据科学领域，Pandas 是一个不可或缺的工具，它为数据操作和分析提供了强大的支持。对于许多数据科学家和工程师来说，Pandas 的 DataFrame 是处理结构化数据的首选工具。然而，在实际应用中，我们经常需要对 DataFrame 的每一行进行特定的操作，比如数据清洗、特征工程或模型预测。本文将深入探讨如何在 Pandas 中高效地遍历 DataFrame 的行，并提供一些实用的技巧和最佳实践。

为什么需要遍历 DataFrame 的行？

在数据处理过程中，遍历 DataFrame 的行通常是为了执行以下任务：

数据清洗：检查和修正每行数据中的错误或缺失值。
特征工程：根据现有列生成新的特征。
模型预测：使用训练好的模型对每行数据进行预测。
自定义操作：执行一些无法通过向量化操作实现的复杂逻辑。

尽管 Pandas 提供了许多高效的向量化操作方法，但在某些情况下，逐行遍历仍然是必要的。然而，不当的遍历方式可能会导致性能问题，因此了解如何高效地遍历 DataFrame 的行至关重要。

方法一：使用 `iterrows()`

iterrows() 是 Pandas 提供的一个简单而直观的方法，用于遍历 DataFrame 的行。它返回一个迭代器，生成包含索引和行数据的元组。以下是一个简单的示例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}
df = pd.DataFrame(data)

# 使用 iterrows() 遍历 DataFrame 的行
for index, row in df.iterrows():
    print(f"Index: {index}, A: {row['A']}, B: {row['B']}")

优点

简单易用：iterrows() 的语法非常直观，适合初学者快速上手。
灵活性高：可以方便地访问每行的索引和数据，适用于各种复杂的操作。

缺点

性能较低：由于 iterrows() 返回的是 Series 对象，每次迭代都会创建一个新的 Series，这会导致较大的开销。因此，当数据量较大时，使用 iterrows() 可能会非常慢。

方法二：使用 `itertuples()`

itertuples() 是另一种遍历 DataFrame 行的方法，它返回一个命名元组，而不是 Series。命名元组的访问速度更快，因此 itertuples() 通常比 iterrows() 更高效。

# 使用 itertuples() 遍历 DataFrame 的行
for row in df.itertuples():
    print(f"Index: {row.Index}, A: {row.A}, B: {row.B}")

优点

性能较高：itertuples() 返回的是命名元组，访问速度比 iterrows() 快。
内存占用低：与 iterrows() 相比，itertuples() 的内存占用更低。

缺点

索引访问方式不同：使用 itertuples() 时，索引名称是 Index，而不是 index，需要注意这一点。

方法三：使用 `apply()`

apply() 方法允许我们在 DataFrame 的每一行上应用一个函数。这使得我们可以利用 Python 的函数编程能力，编写更复杂的逻辑。

# 定义一个处理函数
def process_row(row):
    return row['A'] + row['B']

# 使用 apply() 遍历 DataFrame 的行
df['C'] = df.apply(process_row, axis=1)
print(df)

优点

功能强大：apply() 可以处理复杂的逻辑，适用于各种数据处理任务。
代码简洁：通过定义一个处理函数，可以使代码更加简洁和易读。

缺点

性能问题：虽然 apply() 比 iterrows() 更高效，但仍然不是最高效的解决方案，特别是对于大规模数据集。

方法四：使用向量化操作

在可能的情况下，尽量使用 Pandas 提供的向量化操作。向量化操作可以在底层使用优化的 C 代码，因此性能非常高。

# 使用向量化操作
df['C'] = df['A'] + df['B']
print(df)

优点

性能最高：向量化操作是 Pandas 最推荐的方式，适用于大多数数据处理任务。
代码简洁：向量化操作通常只需要一行代码，非常简洁。

缺点

适用范围有限：并非所有操作都可以通过向量化实现，对于复杂逻辑可能需要使用其他方法。

性能对比

为了更好地理解这些方法的性能差异，我们可以通过一个简单的基准测试来进行比较。假设我们有一个包含 100 万行数据的 DataFrame：

import time

# 创建一个较大的 DataFrame
large_df = pd.DataFrame({
    'A': range(1_000_000),
    'B': range(1_000_000)
})

# 使用 iterrows()
start_time = time.time()
for index, row in large_df.iterrows():
    _ = row['A'] + row['B']
print(f"iterrows() time: {time.time() - start_time:.2f} seconds")

# 使用 itertuples()
start_time = time.time()
for row in large_df.itertuples():
    _ = row.A + row.B
print(f"itertuples() time: {time.time() - start_time:.2f} seconds")

# 使用 apply()
start_time = time.time()
large_df.apply(lambda row: row['A'] + row['B'], axis=1)
print(f"apply() time: {time.time() - start_time:.2f} seconds")

# 使用向量化操作
start_time = time.time()
large_df['A'] + large_df['B']
print(f"vectorized time: {time.time() - start_time:.2f} seconds")

运行结果可能如下：

iterrows() time: 7.89 seconds
itertuples() time: 0.25 seconds
apply() time: 2.13 seconds
vectorized time: 0.01 seconds

从结果可以看出，iterrows() 的性能最差，而向量化操作的性能最高。itertuples() 和 apply() 在性能上介于两者之间，但 itertuples() 通常比 apply() 更快。

最佳实践

优先使用向量化操作：在大多数情况下，向量化操作是最快的，应该优先考虑。
使用 itertuples() 而非 iterrows()：如果必须逐行遍历，建议使用 itertuples() 以获得更好的性能。
避免不必要的循环：尽可能减少循环次数，利用 Pandas 的内置函数和方法来简化操作。
分块处理大文件：对于非常大的数据集，可以考虑分块读取和处理，以减少内存占用。

扩展思考

在实际的数据处理任务中，选择合适的遍历方法不仅取决于性能，还取决于具体的需求和数据特性。例如，在《CDA数据分析师》课程中，我们经常需要处理大规模的结构化数据，此时性能优化变得尤为重要。了解和掌握这些遍历方法，可以帮助我们更高效地完成数据处理任务。

此外，随着数据量的不断增长，分布式计算和并行处理技术也越来越受到关注。例如，Dask 是一个用于并行计算的库，它可以与 Pandas 无缝集成，处理大规模数据集。未来，结合 Dask 和 Pandas 的优势，将进一步提升数据处理的效率和可扩展性。

希望本文能帮助你在 Pandas 中更高效地遍历 DataFrame 的行，如果你有任何问题或建议，欢迎在评论区留言交流！