1. 准备Dask
保证两台计算机在同一局域网下,并且Python和Dask是同一个版本。分别在两台计算机中打开cmd,在主计算机的cmd中输入dask-scheduler,计算机将自动返回一个ip地址。在副计算机中输入dask-worker+ip地址,即可建立Dask分布式。
2. 准备数据
首先准备用于dask_xgboost的数据集。这里准备的数据集是2.5GB的新闻数据,新闻数据已经转换为128维的数值型数据。x.txt文件是836075条新闻数据,y.txt文件是新闻数据对应的分类,y标签
0代表体育新闻;1代表娱乐新闻等,新闻数据共有14种分类。
将数据集读取到Python中
import time
from dask_ml.model_selection import train_test_split
import dask
import dask