大数据学习笔记60:构建Spark机器学习系统

本文详细介绍了如何构建Spark机器学习系统,包括启动Spark集群、加载数据和探索数据的过程。首先讲解了Spark运行模式和SparkShell的使用,然后演示了数据的下载、上传至HDFS以及转化为数据帧的操作,最后在数据探索部分展示了获取数据统计信息和进行数据质量分析的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 构建机器学习系统的方法,根据业务需求和使用工具的不同,可能会有些区别,不过主要流程差别不大,基本包括数据抽取、数据探索、数据处理、建立模型、训练模型、评估模型、优化模型、部署模型等阶段。在构建系统前,我们需要考虑系统的扩展性,与其他系统的整合,系统升级及处理方式等。

一、机器学习系统架构

  • Spark机器学习系统的架构图:数据探索与预处理、训练及测试算法或建模阶段可以组装成流水线方式,模型评估及优化阶段可以采用自动化方式。
    在这里插入图片描述

二、启动Spark集群

(一)Spark运行模式

  • Spark运行方式有本地模式和集群模式。本地模式所有处理都运行在同一个JVM中,而集群模式,可以运行在不同节点上。
运行模式 含义
local 使用单线程在本机上运行Spark任务
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酒城译痴无心剑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值