3、机器学习数据处理与模型训练入门

机器学习数据处理与模型训练入门

1. 数据预处理

在处理银行营销数据集时,数据预处理是关键的一步。首先,我们需要对数据进行清洗,将非数值数据类型转换为数值数据类型,确保特征数据集中的所有列都为数值列。最后,将目标数据集保存为 CSV 文件,代码如下:

target.to_csv('data/bank_data_target_e2.csv')

1.1 数据的恰当表示

在银行营销数据集中,部分列不能很好地表示数据,例如 pdays 列。文档中对该列的描述为:客户在上次营销活动中最后一次被联系后经过的天数(数值型,-1 表示客户之前未被联系)。这一列包含了两条信息:客户是否被联系过,以及如果被联系过,上次联系是多久之前。

我们可以提出两个假设:
- 假设一:之前被联系过的客户更有可能订阅产品。可以通过将 pdays 列转换为二进制变量来验证这个假设,如果 pdays 值为 -1,则设为 0,表示未被联系;否则设为 1,表示被联系过。
- 假设二:客户最近被联系的时间越近,订阅产品的可能性越大。可以先实现假设一,如果该特征具有预测能力,再实现假设二。

1.2 练习:数据的恰当表示

为了验证假设一,我们将 pdays 列进行转换,具体步骤如下:
1. 打开一个 Jupyter 笔记本。
2. 加载数据集到内存,使用练习 2 的输出特征数据集:

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值