3、机器学习数据处理与模型训练入门

最新推荐文章于 2025-12-09 22:34:00 发布

julia4scientist

最新推荐文章于 2025-12-09 22:34:00 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏： Keras深度学习实战精讲文章标签：机器学习数据预处理特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154675174

Keras深度学习实战精讲专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习数据处理与模型训练入门

1. 数据预处理

在处理银行营销数据集时，数据预处理是关键的一步。首先，我们需要对数据进行清洗，将非数值数据类型转换为数值数据类型，确保特征数据集中的所有列都为数值列。最后，将目标数据集保存为 CSV 文件，代码如下：

target.to_csv('data/bank_data_target_e2.csv')

1.1 数据的恰当表示

在银行营销数据集中，部分列不能很好地表示数据，例如 pdays 列。文档中对该列的描述为：客户在上次营销活动中最后一次被联系后经过的天数（数值型，-1 表示客户之前未被联系）。这一列包含了两条信息：客户是否被联系过，以及如果被联系过，上次联系是多久之前。

我们可以提出两个假设：
- 假设一：之前被联系过的客户更有可能订阅产品。可以通过将 pdays 列转换为二进制变量来验证这个假设，如果 pdays 值为 -1，则设为 0，表示未被联系；否则设为 1，表示被联系过。
- 假设二：客户最近被联系的时间越近，订阅产品的可能性越大。可以先实现假设一，如果该特征具有预测能力，再实现假设二。

1.2 练习：数据的恰当表示

为了验证假设一，我们将 pdays 列进行转换，具体步骤如下：
1. 打开一个 Jupyter 笔记本。
2. 加载数据集到内存，使用练习 2 的输出特征数据集：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。