大数据学习笔记60：构建Spark机器学习系统

酒城译痴无心剑

已于 2022-04-25 18:49:38 修改

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：探索大数据-从Hadoop到Flink 文章标签： Spark机器学习

于 2022-04-25 14:01:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/howard2005/article/details/124397443

探索大数据-从Hadoop到Flink 专栏收录该内容

236 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何构建Spark机器学习系统，包括启动Spark集群、加载数据和探索数据的过程。首先讲解了Spark运行模式和SparkShell的使用，然后演示了数据的下载、上传至HDFS以及转化为数据帧的操作，最后在数据探索部分展示了获取数据统计信息和进行数据质量分析的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、机器学习系统架构
二、启动Spark集群
三、加载数据
四、探索数据

构建机器学习系统的方法，根据业务需求和使用工具的不同，可能会有些区别，不过主要流程差别不大，基本包括数据抽取、数据探索、数据处理、建立模型、训练模型、评估模型、优化模型、部署模型等阶段。在构建系统前，我们需要考虑系统的扩展性，与其他系统的整合，系统升级及处理方式等。

一、机器学习系统架构

Spark机器学习系统的架构图：数据探索与预处理、训练及测试算法或建模阶段可以组装成流水线方式，模型评估及优化阶段可以采用自动化方式。

二、启动Spark集群

（一）Spark运行模式

Spark运行方式有本地模式和集群模式。本地模式所有处理都运行在同一个JVM中，而集群模式，可以运行在不同节点上。

运行模式	含义
local	使用单线程在本机上运行Spark任务
local[K]	使用K个工作线程在

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

酒城译痴无心剑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。