15、使用Spark构建回归模型

使用Spark构建回归模型

使用Spark构建回归模型

1. 回归模型简介

回归模型与分类模型不同,分类模型处理的是代表离散类别的结果,而回归模型关注的是可以取任何实数值的目标变量。不过,它们的基本原理非常相似,都是要找到一个将输入特征映射到预测目标变量的模型。回归也是一种监督学习。

回归模型可用于预测各种感兴趣的变量,例如:
- 预测股票回报和其他经济变量
- 预测贷款违约损失金额(可与预测违约概率的分类模型结合,回归模型预测违约情况下的损失金额)
- 推荐系统(第4章的交替最小二乘分解模型在每次迭代中使用线性回归)
- 根据用户行为和消费模式预测零售、移动或其他业务中的客户终身价值(CLTV)

接下来,我们将:
- 介绍MLlib中可用的各种回归模型类型
- 探索回归模型的特征提取和目标变量转换
- 使用MLlib训练多个回归模型
- 了解如何使用训练好的模型进行预测
- 通过交叉验证研究回归中各种参数设置对性能的影响

2. 回归模型类型

Spark的MLlib库提供了两大类回归模型:线性模型和决策树回归模型。
| 模型类型 | 说明 |
| ---- | ---- |
| 线性模型 | 本质上与分类模型类似,只是线性回归模型使用不同的损失函数、相关链接函数和决策函数。MLlib提供标准的最小二乘回归模型(也计划提供其他类型的广义线性回归模型) |
| 决策树回归模型 | 通过改变节点不纯度度量来用于回归 |

2.1 最小二乘回归

最小二乘回归使用的损失函数是平方损失,定义为:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值