python并行计算之p_umap
使用python在很多情况下需要并行处理,例如深度学习中每个样本在一个文件中,需要一个一个的读取,或者某个函数需要并行的执行多次。在这种情况下,串行跑代码需要大量的时间,在有多cpu核心时,我们可以通过并行计算来缩短时间。这里主要介绍
p_tqdm
包中的
p_umap
函数,(注意,
p_umap
函数并行必须在 linux 系统上运行,window 系统不能运行)以下是一个例子:
from p_tqdm import p_umap
def add(a, b):
return a + b
added = p_umap(add, ['1', '2', '3'], ['c', 'd', 'e'], num_cpus=3)
也就是说,如果我们要重复计算多次add函数,我们就可以利用p_umap
,传入的参数分别是函数名add
,然后是函数需要传入的参数列表,这里['1', '2', '3']
中的每一个元素都会并行的传入add的第一个参数a
,['c', 'd', 'e']
中的每一个元素都会并行的传入add的第二个参数b
,num_cpus
可以指定使用的 cpu 核数。也就是说,以上代码会并行的计算
add('1','c')
add('2','d')
add('3','e')
然后返回一个结果列表
added = ['1c', '2d', '3e']
需要注意的是,在实际使用时,通常需要对结果list做一些预处理,满足下一步的输入。例如并行读取数据集数据时,最后可以按照数据的id排序等预处理操作。