分布式机器学习dask

最新推荐文章于 2025-07-14 15:00:00 发布

林子要加油

最新推荐文章于 2025-07-14 15:00:00 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘

本文链接：https://blog.youkuaiyun.com/real_ilin/article/details/90487951

机器学习与数据挖掘专栏收录该内容

8 篇文章

订阅专栏

Dask是数据分析的并行计算框架，集成了numpy、pandas等现有框架，API一致。它有动态任务调度和大数据集合两大组成部分，具备熟悉、灵活、快速等特性。介绍了conda和pip的安装方式，有两种任务调度器，使用场景分单机处理和自定义任务调度两类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Dask

分布式机器学习

Dask

Dask是一个数据分析的并行计算的框架。

已经集成了现有的框架，比如：numpy，pandas，scikit-learn，xgboost，lightGBM等
API与已有框架的API一致
可以扩展到上千个节点，也可以在笔记本上使用
有低阶API可供用户定制化

组成

动态任务调度（Dynamic task scheduling）优化交互计算的工作量，与Airflow，Luigi，Celery或Make类似
“大数据”集合（Big Data Collection）扩展了NumPy，pandas，Python iterators可以处理比内存大的数据及在分布式的环境上

特性

Familiar：数据结构一致
Flexible：提供了一个任务调度接口，可以定制化的集成其它算法
Native：纯python环境
Fast：减少了工作量，增加了并行计算，速度更快
Scales up：可以扩展到1000+cores
Scales down：可以在laptop上使用
Responsive：有诊断系统，反馈更及时

有一个Task Graph，与spark的类似

Install Dask

conda安装
- 完全安装，包含了所有的信赖，比如numpy,pandas
  conda install dask
- 只安装内核
  conda install dask-core
  与pip install dask一样
pip安装
pip install “dask[compete]” # Install everything
pip install dask # Install only core
cluster 部署

      # 安装dask 1.2.2
      conda install dask==1.2.2 或者 pip install dask[complete]==1.2.2
      # 启动scheduler进程，并挂后台
      nohup dask-scheduler --host 172.16.36.20 &
      # 启动worker进程，指定scheduler的地址是203，端口是8786，代码中提交的端口也是8786,并挂后台
      nohup dask-worker --name work-01 172.16.36.20:8786 &
      # 关闭防火墙就可以通过8787端口查看集群状态
      sudo systemctl status firewalld # 查看防火墙状态，加d是服务
      sudo systemctl stop firewalld # 关闭防火墙
      http://172.16.36.30:8787/status

Setup

Dask有两种task scheduler

Single machine scheduler：

默认 scheduler，不用设置
调用compute()方法，使用默认scheduler
示例

     import dask.dataframe as dd
     df = dd.read_csv(...)
     df.x.sum().compute()  # This uses the single-machine scheduler by default

Distributed scheduler

需要设置一个Client

示例

from dask.distributed import Client
client = Client(...)  # Connect to distributed cluster and override default
df.x.sum().compute()  # This now runs on the distributed system