慢慢认识大数据

本文探讨了Spark作为大数据处理框架的优势,特别是相较于Hadoop在速度与负载优化方面的改进。通过对Spark的历史背景、核心特性及其实现机制的介绍,文章揭示了Spark如何通过内存分布数据集实现高效的大数据迭代计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天的内容
今天上午,跟客户一起讨论了导航的网络架构的问题。其他时间都是在整理一些文档。中午的时候开了一周的例会,下午的时候是整理申请的东西。晚上的时候是开会
今天上午还解决了,瘦终端序列号的问题。
这些都不再谈了。
主要是晚上的时候,跟ES还有大数据的人一起讨论问题。我接触到了几个自己不是很精深的问题。

恒定的频率

说一点题外的话,我现在是比较信PT的。我认为,世界上是有像匀速直线运动一样恒定优美的频率的,只要让自己时刻保持这样的频率,美好的东西自然都会被吸引到身边。这是我现在相信的东西。我要不断强化自己的这个思想,让它生出更多精神的力量。

按照PT的教法,了解一个东西,要分三个步骤的,what,how,why.

what

我了解一个东西,喜欢从历史开始。
Spark是个框架。
Spark是个计算引擎。
Spark是个开源的集群计算环境。
这三个回答,可以解决Spark是个什么东西的问题。
Spark诞生的地方是,UC Berkeley AMP Lab,加州大学伯克利分校的AMP实验室。
这个学校我是知道的。BSD就是从这个学校搞出来的。
AMP实验室我还对它了解不深刻的。
总之,我现在知道Spark是应用在大数据方向上的一个东西。

用我的理解来看。
在大数据方面,有个比较流行的东西,Hadoop MapReduce。
Spark从字面的意思看,是电火花的意思。隐含着它计算是很快的。
大数据可以看成是一种资源的。
利用这种资源的工具就是Hadoop MapReduce或者是Spark。
具体的应用层面,就是【数据挖掘】和【机器学习】。
如果你要进行【数据挖掘】和【机器学习】这两个方面的工作,
很多时候就需要迭代MapReduce算法。要重复的。
不停地算不停地算。
这里有一个问题,运算的中间结果怎么处理?
Hadoop是把中间结果放在了HDFS上。
这个HDFS是hadoop分布式文件系统的一个简称。
洋文的名字是: Hadoop Distributed File System
它是个很不错的东西,能在便宜的机器上布置的。
所以提到HDFS的时候,依我的水平,我只能把它理解成硬盘。
Hadoop把中间结果是放在这个地方的。
Spark把中间结果是放在内存当中的。所以Spark会快一点的。
它用了个技术叫【内存分布数据集】,在进行大量迭代计算的时候,
能够很好地优化负载的。

所以,从这一段的描述可以看出,Spark是有两个优点的。
一个就是快,一个就是优化负载。这两个优点大概都是起源一个原因,就是使用了内存分布数据集。那么,这又是为什么呢,因为Spark是和Scala语言紧密集成的。
所以逻辑关系应该是下面这样的。
1.Spark和Scala语言紧密继承。
2.Spark可以像操作本地集合一样操作分布式数据集
3.Spark很快而且负载优化能力很强。

实际上,Spark是一种对Hadoop的补充,在Hadoop文件系统中可以运行Spark的。
可以应用一个框架叫做Mesos。这是一个第三方集群框架。
它是Spark和Hadoop的媒人。
他们主要是用来构建【分析应用程序】的,就是大数据的分析技术。

有一些基本的东西要知道。
1.Spark比Hadoop快100倍。
2.Spark有80个高级运算符。
3.Spark有很多库。
SQL,DataFrames,MLib,GraphX,Spark Streaming
4.支持多种资源管理器
Hadoop YARN,Apache Mesos

how

要写好这一点是不容易的。

Spark跟Hadoop是比较类似的东西。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值