机器学习数据处理与模型训练全解析
一、数据预处理
在机器学习中,数据预处理是至关重要的一步。以银行营销数据集为例,我们需要对数据进行适当的清洗和转换,以便用于训练模型。
1. 数据清洗与保存
首先,我们要将非数值数据类型转换为数值数据类型,把特征数据集中的所有列都转换为数值列。最后,将目标数据集保存为 CSV 文件,代码如下:
target.to_csv('data/bank_data_target_e2.csv')
2. 数据的恰当表示
在银行营销数据集中,有些列不能恰当表示数据,例如 pdays 列。文档中对 pdays 列的描述是:客户从上一次营销活动最后一次被联系后经过的天数(数值型,-1 表示客户之前未被联系)。这里,-1 的含义与正数有很大不同,该列实际上编码了两条信息:
- 是否被联系过
- 如果被联系过,上一次联系是多久之前
我们可以基于这两条信息提出假设,例如:
- 假设一:之前被联系过的客户更有可能订阅产品。可以通过将 pdays 列转换为二进制变量来验证这个假设,如果 pdays 值为 -1,转换为 0,表示客户之前未被联系;否则为 1。
- 假设二:客户最近被联系的时间越近,订阅产品的可能性越大。
由于构建机器学习模型是一个迭代的过程,我们可以选择一个或两个假设,并评估它们的加入是否提高了模型的预测性能。
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



