4、数据挖掘全流程:从模型部署到数据预处理

数据挖掘全流程:从模型部署到数据预处理

1. 模型部署

模型部署是将模型集成到操作系统中,并在真实记录上运行以产生决策或行动的步骤。例如,将模型应用于购买的潜在客户列表,若预测购买金额超过 10 美元,则将该客户纳入邮寄名单。此步骤的关键是对新记录进行“评分”,即使用所选模型为每个新记录预测结果值(“分数”)。

常见的方法论如 SAS 开发的 SEMMA 包含以下步骤:
- 样本(Sample) :从数据集中抽取样本,并划分为训练集、验证集和测试集。
- 探索(Explore) :通过统计和图形方法检查数据集。
- 修改(Modify) :转换变量并插补缺失值。
- 建模(Model) :拟合预测模型,如回归树、神经网络等。
- 评估(Assess) :使用验证集比较模型。

IBM SPSS Modeler 有类似的 CRISP - DM 方法论,这些框架都包含预测建模的主要步骤。

2. 数据集组织

数据集通常按列存储变量,按行存储记录。以 2014 年波士顿西罗克斯伯里的房屋价值数据为例,该数据集包含 5000 多套房屋的 14 个变量。每行代表一套房屋,例如第一套房屋的评估价值为 344,200 美元,税收为 4430 美元,面积为 9965 平方英尺,建于 1880 年等。在监督学习中,通常会有一个结果变量,一般列在第一列或最后一列,此例中为“TOTAL VALUE”(总价值)。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值