Dask并行模式训练xgboost

1. 准备Dask

保证两台计算机在同一局域网下,并且Python和Dask是同一个版本。分别在两台计算机中打开cmd,在主计算机的cmd中输入dask-scheduler,计算机将自动返回一个ip地址。在副计算机中输入dask-worker+ip地址,即可建立Dask分布式。

在这里插入图片描述

2. 准备数据

首先准备用于dask_xgboost的数据集。这里准备的数据集是2.5GB的新闻数据,新闻数据已经转换为128维的数值型数据。x.txt文件是836075条新闻数据,y.txt文件是新闻数据对应的分类,y标签
0代表体育新闻;1代表娱乐新闻等,新闻数据共有14种分类。

在这里插入图片描述

将数据集读取到Python中

import time
from dask_ml.model_selection import train_test_split
import dask
import dask
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值