Pandas 将一行数据部分变成多行：不变的复制

原创于 2025-04-16 13:24:59 发布 · 939 阅读

CC 4.0 BY-SA版权

文章标签：

在数据分析的世界里，你是否遇到过这样的场景？一个表格中的一行数据包含了多个维度的信息，而你需要将这些信息拆分成多行。同时，还要保持某些字段的值不变，并且复制到新生成的每一行中。这听起来像是一场数据处理的噩梦，但实际上，Pandas 提供了强大而灵活的功能来应对这种挑战。

想象一下，你正在处理一份销售记录表。每一条记录不仅包含销售额，还包含多个产品的信息。为了更精细地分析每个产品的销售情况，你需要将这条记录拆分成多条，但又要保留销售人员的名字和日期等基本信息。如何用 Pandas 实现这个功能呢？本文将深入探讨这一问题，为你揭示其中的奥秘。

基础概念：理解 Pandas 数据结构

在深入了解具体的实现方法之前，我们先快速回顾一下 Pandas 的基本数据结构。Pandas 主要有两种核心数据结构：Series 和 DataFrame。Series 是一种一维带标签的数组，而 DataFrame 则是二维表格型的数据结构，类似于 Excel 表格或 SQL 表。对于我们要解决的问题，主要涉及的是 DataFrame 的操作。

import pandas as pd

# 创建一个简单的示例 DataFrame
data = {
    '姓名': ['张三'],
    '日期': ['2023-10-01'],
    '产品': [['A', 'B', 'C']],
    '销售额': [1500]
}

df = pd.DataFrame(data)
print(df)

这段代码创建了一个包含一行数据的 DataFrame，其中“产品”列是一个列表，里面包含了多个产品名称。这就是我们要处理的情况。

具体实现：利用 explode 函数

1 简单使用

幸运的是，Pandas 提供了一个非常方便的函数——explode，它可以将一个包含列表（或其他可迭代对象）的列展开成多行。接下来，我们看看如何使用它。

df_exploded = df.explode('产品')
print(df_exploded)

运行上述代码后，你会看到原本的一行数据变成了三行，分别对应产品 A、B 和 C。而其他列（如“姓名”、“日期”和“销售额”）则被复制到了每一行中，保持不变。这正是我们需要的效果！

但是，explode 函数不仅仅是简单地展开列表。它还可以处理更复杂的情况，例如当列中包含嵌套的列表时。只要确保要展开的列中的元素是可迭代的，explode 都能很好地工作。

2 处理空值

现实世界中的数据往往并不完美，在使用 explode 时可能会遇到一些特殊情况，比如某行数据中要展开的列为空列表或者 None。在这种情况下，默认行为是将该行转换为缺失值（NaN）。如果不想丢失这些行，可以设置参数 ignore_index=False。

# 假设有些行的产品列表为空
data_with_empty = {
    '姓名': ['张三', '李四'],
    '日期': ['2023-10-01', '2023-10-02'],
    '产品': [['A', 'B', 'C'], []],
    '销售额': [1500, 800]
}

df_with_empty = pd.DataFrame(data_with_empty)
df_exploded_with_empty = df_with_empty.explode('产品')
print(df_exploded_with_empty)

从输出结果可以看到，第二行由于产品列表为空，所以只有一行，且“产品”列为 NaN。如果你希望保留原始索引，而不是让所有行重新编号，就使用 ignore_index=False。

3 应用于实际案例

让我们通过一个更贴近实际业务的例子来巩固所学的知识。假设你是一名电商公司的数据分析师，需要分析用户购买行为。现在有一个订单表，其中每个订单可能包含多种商品。你想要根据商品进行细分分析，那么就可以利用 explode 函数。

orders_data = {
    '订单号': ['O1001', 'O1002'],
    '下单时间': ['2023-10-01 10:00', '2023-10-02 14:30'],
    '顾客ID': [1001, 1002],
    '商品清单': [
        [{'商品ID': 'P1001', '数量': 2, '单价': 100},
         {'商品ID': 'P1002', '数量': 1, '单价': 200}],
        [{'商品ID': 'P1003', '数量': 3, '单价': 50}]
    ],
    '总金额': [400, 150]
}

orders_df = pd.DataFrame(orders_data)

# 首先将商品清单列展开
exploded_orders_df = orders_df.explode('商品清单')

# 接下来将字典形式的商品信息转为单独的列
exploded_orders_df = exploded_orders_df.join(
    pd.json_normalize(exploded_orders_df['商品清单'])
).drop('商品清单', axis=1)

print(exploded_orders_df)

这里我们先用 explode 展开“商品清单”列，然后再借助 pd.json_normalize() 函数将字典形式的商品信息转为独立的列。最终得到的结果是一个更适合进一步分析的数据集，每一行代表一个特定商品在一个订单中的详情，同时保留了订单号、下单时间和顾客ID等关键信息。

性能优化：大规模数据处理技巧

当处理大规模数据时，效率变得至关重要。虽然 explode 函数本身已经经过优化，但在某些极端情况下（如数百万甚至上亿行数据），仍然可能存在性能瓶颈。下面介绍几种提高性能的方法。

1 使用 Dask

Dask 是一个并行计算库，可以与 Pandas 无缝集成。对于超大型数据集，可以考虑将 Pandas DataFrame 转换为 Dask DataFrame，然后进行类似的操作。这样能够充分利用多核 CPU 或分布式集群资源，显著加快数据处理速度。

import dask.dataframe as dd

# 将普通的 Pandas DataFrame 转换为 Dask DataFrame
dask_df = dd.from_pandas(df, npartitions=4)

# 执行 explode 操作
exploded_dask_df = dask_df.explode('产品')

# 计算结果
result = exploded_dask_df.compute()
print(result)

请注意，使用 Dask 需要安装相应的包，并且合理设置分区数量以平衡内存占用和计算效率。

2 内存管理

除了采用并行计算框架外，良好的内存管理也能提升性能。尽量避免不必要的副本创建；及时释放不再使用的变量；使用合适的数据类型（如类别型而非字符串）以节省空间。此外，如果只关心部分列的数据，可以在读取文件时就指定列名，减少 I/O 开销。

3 索引优化

适当设置索引有助于加速查询和排序操作。在对 DataFrame 进行 explode 之前，可以根据后续分析的需求选择合适的列作为索引。例如，如果我们知道后续会频繁按照“订单号”进行分组聚合，就可以提前设置好索引，从而提高整体性能。

df.set_index('订单号', inplace=True)
exploded_df = df.explode('商品清单')

当然，索引也会占用额外的内存，因此要权衡利弊，找到最适合应用场景的方案。

进阶应用：结合其他 Pandas 功能

除了 explode 函数本身，Pandas 还有许多强大的工具可以与之结合使用，创造出更多实用的功能。

1 分组聚合

在将一行数据变为多行之后，通常还需要对其进行分组聚合，以便得出更有意义的统计结果。比如计算每个顾客在不同商品上的平均消费额。

grouped = exploded_orders_df.groupby(['顾客ID', '商品ID'])['数量', '单价'].mean()
print(grouped)

这里我们按顾客ID和商品ID进行了分组，并对数量和单价求均值。分组聚合是数据分析中最常用的操作之一，掌握好它可以让你更好地挖掘数据背后的价值。

2 数据可视化

有了整理好的数据，自然少不了可视化展示。Pandas 集成了 Matplotlib 库，可以直接绘制图表。以柱状图为例，我们可以直观地比较不同商品的销量。

import matplotlib.pyplot as plt

sales_by_product = exploded_orders_df.groupby('商品ID')['数量'].sum()
sales_by_product.plot(kind='bar')
plt.xlabel('商品ID')
plt.ylabel('销量')
plt.title('各商品销量对比')
plt.show()