机器学习数据处理与模型训练入门
1. 数据预处理
在处理银行营销数据集时,数据预处理是关键的一步。首先,我们需要对数据进行清洗,将非数值数据类型转换为数值数据类型,确保特征数据集中的所有列都为数值列。最后,将目标数据集保存为 CSV 文件,代码如下:
target.to_csv('data/bank_data_target_e2.csv')
1.1 数据的恰当表示
在银行营销数据集中,部分列不能很好地表示数据,例如 pdays 列。文档中对该列的描述为:客户在上次营销活动中最后一次被联系后经过的天数(数值型,-1 表示客户之前未被联系)。这一列包含了两条信息:客户是否被联系过,以及如果被联系过,上次联系是多久之前。
我们可以提出两个假设:
- 假设一:之前被联系过的客户更有可能订阅产品。可以通过将 pdays 列转换为二进制变量来验证这个假设,如果 pdays 值为 -1,则设为 0,表示未被联系;否则设为 1,表示被联系过。
- 假设二:客户最近被联系的时间越近,订阅产品的可能性越大。可以先实现假设一,如果该特征具有预测能力,再实现假设二。
1.2 练习:数据的恰当表示
为了验证假设一,我们将 pdays 列进行转换,具体步骤如下:
1. 打开一个 Jupyter 笔记本。
2. 加载数据集到内存,使用练习 2 的输出特征数据集:
<
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



