使用Spark构建回归模型
1. 回归模型简介
回归模型与分类模型不同,分类模型处理的是代表离散类别的结果,而回归模型关注的是可以取任何实数值的目标变量。不过,它们的基本原理非常相似,都是要找到一个将输入特征映射到预测目标变量的模型。回归也是一种监督学习。
回归模型可用于预测各种感兴趣的变量,例如:
- 预测股票回报和其他经济变量
- 预测贷款违约损失金额(可与预测违约概率的分类模型结合,回归模型预测违约情况下的损失金额)
- 推荐系统(第4章的交替最小二乘分解模型在每次迭代中使用线性回归)
- 根据用户行为和消费模式预测零售、移动或其他业务中的客户终身价值(CLTV)
接下来,我们将:
- 介绍MLlib中可用的各种回归模型类型
- 探索回归模型的特征提取和目标变量转换
- 使用MLlib训练多个回归模型
- 了解如何使用训练好的模型进行预测
- 通过交叉验证研究回归中各种参数设置对性能的影响
2. 回归模型类型
Spark的MLlib库提供了两大类回归模型:线性模型和决策树回归模型。
| 模型类型 | 说明 |
| ---- | ---- |
| 线性模型 | 本质上与分类模型类似,只是线性回归模型使用不同的损失函数、相关链接函数和决策函数。MLlib提供标准的最小二乘回归模型(也计划提供其他类型的广义线性回归模型) |
| 决策树回归模型 | 通过改变节点不纯度度量来用于回归 |
2.1 最小二乘回归
最小二乘回归使用的损失函数是平方损失,定义为:
使用Spark构建回归模型
超级会员免费看
订阅专栏 解锁全文
2556

被折叠的 条评论
为什么被折叠?



