Dask 入门
-
识别和描述 Dask 数据集合(Collection),包含数组(Array)和数据框(DataFrame)和调度器。
-
认识到 Dask 数组的使用与 Numpy 数组的使用时类似的。
-
理解分块(chunk)大小(size)、形状(shape)和计算开销。
-
部署本地分布式集群并使用诊断仪表板(diagnostics dashboard).
什么是 Dask?
Dask 是一个灵活应用于分析计算的并行计算包。Dask 能够提供动态并行任务调度系统、高级数据集合,如dask.array
, dask.dataframe
和一系列部署模式。
并行计算:如同电路串联和并联的概念,电路并联能够使得每一个分路从总负荷中分配各自的分路负荷。同理对并行计算也有类似的理解ÿ