数据挖掘全流程:从模型部署到数据预处理
1. 模型部署
模型部署是将模型集成到操作系统中,并在真实记录上运行以产生决策或行动的步骤。例如,将模型应用于购买的潜在客户列表,若预测购买金额超过 10 美元,则将该客户纳入邮寄名单。此步骤的关键是对新记录进行“评分”,即使用所选模型为每个新记录预测结果值(“分数”)。
常见的方法论如 SAS 开发的 SEMMA 包含以下步骤:
- 样本(Sample) :从数据集中抽取样本,并划分为训练集、验证集和测试集。
- 探索(Explore) :通过统计和图形方法检查数据集。
- 修改(Modify) :转换变量并插补缺失值。
- 建模(Model) :拟合预测模型,如回归树、神经网络等。
- 评估(Assess) :使用验证集比较模型。
IBM SPSS Modeler 有类似的 CRISP - DM 方法论,这些框架都包含预测建模的主要步骤。
2. 数据集组织
数据集通常按列存储变量,按行存储记录。以 2014 年波士顿西罗克斯伯里的房屋价值数据为例,该数据集包含 5000 多套房屋的 14 个变量。每行代表一套房屋,例如第一套房屋的评估价值为 344,200 美元,税收为 4430 美元,面积为 9965 平方英尺,建于 1880 年等。在监督学习中,通常会有一个结果变量,一般列在第一列或最后一列,此例中为“TOTAL VALUE”(总价值)。
<
超级会员免费看
订阅专栏 解锁全文
1046

被折叠的 条评论
为什么被折叠?



