Modin项目中的批处理管道API使用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00318/article/details/148416093

Modin项目中的批处理管道API使用指南

modin modin-project/modin: Modin 是一个基于 Apache Arrow 和 Dask 的高性能分布式 DataFrame 库，它为 Pandas 提供了无缝的并行计算能力，使得大数据集处理变得更加高效。项目地址: https://gitcode.com/gh_mirrors/mo/modin

概述

Modin提供了一个实验性的批处理功能，可以流水线化行并行查询。这个功能目前仅支持PandasOnRay引擎。需要注意的是，这是一个实验性功能，其行为和接口可能会发生变化。

批处理管道的基本概念

批处理管道允许你将多个数据转换操作组合成一个流水线，这些操作会以批处理方式执行。这种方法特别适合需要执行多个连续转换操作的场景，可以显著提高处理效率。

简单批处理管道示例

让我们从一个简单的例子开始，了解批处理管道的基本用法：

from modin.experimental.batch import PandasQueryPipeline
import modin.pandas as pd
import numpy as np

# 创建一个测试DataFrame
df = pd.DataFrame(
    np.random.randint(0, 100, (100, 100)),
    columns=[f"col {i}" for i in range(1, 101)],
)

# 创建管道
pipeline = PandasQueryPipeline(df)

# 添加第一个查询：所有值加1，并标记为输出
pipeline.add_query(lambda df: df + 1, is_output=True)

# 添加第二个查询：重命名列
pipeline.add_query(
    lambda df: df.rename(columns={f"col {i}":f"col {i-1}" for i in range(1, 101)})
)

# 添加第三个查询：删除特定列，并标记为输出
pipeline.add_query(
    lambda df: df.drop(columns=['col 99']),
    is_output=True,
)

# 执行批处理
result_dfs = pipeline.compute_batch()

# 输出结果
print(f"第一个查询结果:\n{result_dfs[0]}")
print(f"第二个查询结果:\n{result_dfs[1]}")

在这个例子中，我们创建了一个包含三个操作的管道，其中两个操作被标记为输出。compute_batch()方法会返回所有标记为输出的查询结果。

使用输出ID

你可以为输出查询指定ID，这样结果会以字典形式返回，便于识别：

pipeline = PandasQueryPipeline(df)
pipeline.add_query(
    lambda df: df + 1,
    is_output=True,
    output_id="add_one"  # 指定输出ID
)
pipeline.add_query(
    lambda df: df.rename(columns={f"col {i}":f"col {i-1}" for i in range(1, 101)})
)
pipeline.add_query(
    lambda df: df.drop(columns=['col 99']),
    is_output=True,
    output_id="drop_col"  # 指定输出ID
)

result_dfs = pipeline.compute_batch()

# 按输出ID访问结果
print(f"加一操作结果:\n{result_dfs['add_one']}")
print(f"删除列操作结果:\n{result_dfs['drop_col']}")

后处理功能

Modin允许你为批处理操作添加后处理函数，这在需要将结果保存到文件或进行其他处理时非常有用：

def postprocessing_func(df, output_id, partition_id):
    """将每个分区的结果保存为Parquet文件"""
    filepath = f"output_{output_id}/"
    os.makedirs(filepath, exist_ok=True)
    filepath += f"part-{partition_id:04d}.parquet"
    df.to_parquet(filepath)
    return df

result_dfs = pipeline.compute_batch(
    postprocessor=postprocessing_func,
    pass_partition_id=True,
    pass_output_id=True,
)

扇出(Fan Out)模式

当输入数据较小时，可以使用扇出模式来增加并行度：

def parallel_processing(df, partition_id):
    """并行处理函数"""
    # 处理逻辑
    return processed_df

def reduce_function(dfs):
    """合并并行处理的结果"""
    # 合并逻辑
    return combined_df

pipeline = PandasQueryPipeline(df, num_partitions=8)  # 指定分区数
pipeline.add_query(
    parallel_processing,
    fan_out=True,  # 启用扇出
    reduce_fn=reduce_function,  # 指定合并函数
    is_output=True,
    pass_partition_id=True
)

动态重分区

对于数据大小会显著变化的操作，可以使用动态重分区：

def expand_data(df):
    """显著增加数据量的操作"""
    return pd.concat([df]*1000)

pipeline = PandasQueryPipeline(small_df, num_partitions=24)
pipeline.add_query(expand_data, repartition_after=True)  # 操作后重分区
pipeline.add_query(some_other_operation, is_output=True)