14、数据处理工具：Dask、Modin、Spark与Ray的深度解析

香菜滚出地球

于 2025-07-19 15:22:39 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：用Ray扩展Python：分布式计算与机器学习的新时代文章标签： Dask Modin Spark

本文链接：https://blog.youkuaiyun.com/smartcontract5/article/details/149640468

用Ray扩展Python：分布式计算与机器学习的新时代专栏收录该内容

20 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

数据处理工具：Dask、Modin、Spark与Ray的深度解析

1. Dask自动分区与并行操作

在数据处理中，通常需要指定分区数量或具体的划分方式，但Dask的 repartition 函数可以根据目标大小自动选择分区。不过，这一操作成本较高，因为Dask需要评估DataFrame以及重新分区本身。以下是一个示例：

reparted = indexed.repartition(partition_size="20kb")

Dask的 set_index 也有类似的 partition_size 参数，但截至目前，该参数不起作用。

Dask的 map_partitions 函数可将一个函数应用于pandas DataFrame的每个分区，结果也是一个pandas DataFrame。使用 map_partitions 实现的函数是高度并行的，因为它们不需要在工作节点之间进行数据传输。例如，我们可以实现一个填充缺失值的函数：

def fillna(df):
    return df.fillna(value={"PostCode": "UNKNOWN"}).fillna(value=0)

new_df = df.map_partitions(fillna)
# Since there could be an NA in the index clear

了解本专栏

超级会员免费看