使用Pipeline API和逻辑回归进行二分类及K-means聚类
在数据科学领域,二分类和聚类是常见的任务。本文将介绍如何使用Spark的Pipeline API结合逻辑回归进行二分类,以及如何使用K-means算法进行聚类。
二分类:使用Pipeline API和逻辑回归
在之前的垃圾邮件二分类示例中,我们经历了数据准备、划分训练集和测试集、训练模型以及评估模型等一系列步骤。现在,我们可以使用Spark的Pipeline API以更简化的方式完成这些任务。
步骤概述
- 导入数据并划分为测试集和训练集
- 构建Pipeline的组件
- 准备Pipeline并训练模型
- 对测试数据进行预测
- 不使用交叉验证评估模型
- 构建交叉验证的参数
- 构建交叉验证器并拟合最佳模型
- 使用交叉验证评估模型
代码可参考:
超级会员免费看
订阅专栏 解锁全文
1282

被折叠的 条评论
为什么被折叠?



