Spark实践1(Spark简介)

Spark是一个准实时的分布式计算系统,支持SQL数据运算、机器学习和图处理等关键功能。其核心组件SparkCore负责任务调度与内存管理,而SQL、MLlib及GraphX等模块则针对不同场景提供具体解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark简介:

         简而言之,Spark就是一个准实时的分布式计算系统。

         准实时怎么理解,这里不展开了,就简单理解为已经接近实时。

        分布式这个东西,说得玄乎其玄,一言蔽之,就是把一个任务,分解到多个节点(这里我们简单假定一个节点就是一台机器),让每台机器运算好了之后,然后合并结果,就是那么简单。跟包工头领了搬砖活,然后分给下面的工人做,工人完成自己的任务之后就向工头交差,然后工头把工作成果汇总,然后向工人发工钱的原理是一模一样的。

      Spark系统做的事情,跟包工头和工人的模型是差不多的,但是它主要使命不是搬砖,而是以下三项:

   1 .    SQL的数据运算

         场景:处理有SQL出现的场景。

   2.     机器学习(MLlib模块)

        场景:提供了一些成熟的算法,如回归,聚类,协同过滤等。

   3.     图处理(GraphX 模块)

        场景:主要应用于社交场景。

   4.     流处理

        场景:主要处理流式计算,什么是流式计算,这里不展开,后续会在实践到的时候详细展开。


                                图 1

       如上图一所示,Spark Core实现了Spark的基本功能,如任务调度,内存管理,错误恢复等。Spark Core抽象了并行操作了功能的API,就是充当一个包工头的角色,其他的SQL,MLlib,GraphX实际上就是充当工人的角色。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值