joblib 对 Pandas 的并行处理

最新推荐文章于 2025-03-08 07:00:00 发布

原创最新推荐文章于 2025-03-08 07:00:00 发布 · 1.6k 阅读

4 ·

CC 4.0 BY-SA版权

ML 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了一种利用Joblib库进行数据处理的方法，通过将数据集分解为多个子任务并行处理，显著提高了对大型数据集进行操作的效率。这种方法特别适用于基于一列数据生成新列的场景。

目标：
如果需要对一个很大的数据集进行操作，而基于一列数据生成新的一列数据可能都需要耗费很长时间。

于是可以使用 joblib 进行并行处理。

实现方法：
1、无并行：

import pandas as pd

def double_fun(data):
	return pow(data,2)

data['double'] = data['x'].apply(double_fun)

2、并行：

import pandas as pd
from joblib import Parallel, delayed

def double_func(data):
    return pow(data,2)

def key_func(subset):
    subset["double"] = subset["x"].apply(double_func)

data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)
data = pd.concat(results)