4、数据挖掘全流程：从模型部署到数据预处理

最新推荐文章于 2025-11-24 09:11:09 发布

sprite

最新推荐文章于 2025-11-24 09:11:09 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘赋能商业智能文章标签：数据挖掘模型部署数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/155018109

数据挖掘赋能商业智能专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘全流程：从模型部署到数据预处理

1. 模型部署

模型部署是将模型集成到操作系统中，并在真实记录上运行以产生决策或行动的步骤。例如，将模型应用于购买的潜在客户列表，若预测购买金额超过 10 美元，则将该客户纳入邮寄名单。此步骤的关键是对新记录进行“评分”，即使用所选模型为每个新记录预测结果值（“分数”）。

常见的方法论如 SAS 开发的 SEMMA 包含以下步骤：
- 样本（Sample） ：从数据集中抽取样本，并划分为训练集、验证集和测试集。
- 探索（Explore） ：通过统计和图形方法检查数据集。
- 修改（Modify） ：转换变量并插补缺失值。
- 建模（Model） ：拟合预测模型，如回归树、神经网络等。
- 评估（Assess） ：使用验证集比较模型。

IBM SPSS Modeler 有类似的 CRISP - DM 方法论，这些框架都包含预测建模的主要步骤。

2. 数据集组织

数据集通常按列存储变量，按行存储记录。以 2014 年波士顿西罗克斯伯里的房屋价值数据为例，该数据集包含 5000 多套房屋的 14 个变量。每行代表一套房屋，例如第一套房屋的评估价值为 344,200 美元，税收为 4430 美元，面积为 9965 平方英尺，建于 1880 年等。在监督学习中，通常会有一个结果变量，一般列在第一列或最后一列，此例中为“TOTAL VALUE”（总价值）。

<

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。