目标:
如果需要对一个很大的数据集进行操作,而基于一列数据生成新的一列数据可能都需要耗费很长时间。
于是可以使用 joblib 进行并行处理。
实现方法:
1、无并行:
import pandas as pd
def double_fun(data):
return pow(data,2)
data['double'] = data['x'].apply(double_fun)
2、并行:
import pandas as pd
from joblib import Parallel, delayed
def double_func(data):
return pow(data,2)
def key_func(subset):
subset["double"] = subset["x"].apply(double_func)
data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)
data = pd.concat(results)
基本原理就是把整个 dataframe 根据 index,每行生成了一个子数据集,而把每个子数据集作为子任务使用多进程运行,最终生成 results 是多进程运行生成的结果的 list,使用 concat 重新组合就是我们最终想要的结果了。
n_jobs 参数就是需要使用几个进程池来运行程序。
本文介绍了一种利用Joblib库进行数据处理的方法,通过将数据集分解为多个子任务并行处理,显著提高了对大型数据集进行操作的效率。这种方法特别适用于基于一列数据生成新列的场景。
1030

被折叠的 条评论
为什么被折叠?



