慢慢认识大数据

最新推荐文章于 2024-09-09 20:30:55 发布

武家坡

最新推荐文章于 2024-09-09 20:30:55 发布

阅读量473

点赞数 1

CC 4.0 BY-SA版权

分类专栏： IT阅读

本文链接：https://blog.youkuaiyun.com/qq_39351311/article/details/76862883

IT阅读专栏收录该内容

2 篇文章

订阅专栏

本文探讨了Spark作为大数据处理框架的优势，特别是相较于Hadoop在速度与负载优化方面的改进。通过对Spark的历史背景、核心特性及其实现机制的介绍，文章揭示了Spark如何通过内存分布数据集实现高效的大数据迭代计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天的内容
今天上午，跟客户一起讨论了导航的网络架构的问题。其他时间都是在整理一些文档。中午的时候开了一周的例会，下午的时候是整理申请的东西。晚上的时候是开会
今天上午还解决了，瘦终端序列号的问题。
这些都不再谈了。
主要是晚上的时候，跟ES还有大数据的人一起讨论问题。我接触到了几个自己不是很精深的问题。

恒定的频率

说一点题外的话，我现在是比较信PT的。我认为，世界上是有像匀速直线运动一样恒定优美的频率的，只要让自己时刻保持这样的频率，美好的东西自然都会被吸引到身边。这是我现在相信的东西。我要不断强化自己的这个思想，让它生出更多精神的力量。

按照PT的教法,了解一个东西，要分三个步骤的，what,how,why.

what

我了解一个东西，喜欢从历史开始。
Spark是个框架。
Spark是个计算引擎。
Spark是个开源的集群计算环境。
这三个回答，可以解决Spark是个什么东西的问题。
Spark诞生的地方是,UC Berkeley AMP Lab,加州大学伯克利分校的AMP实验室。
这个学校我是知道的。BSD就是从这个学校搞出来的。
AMP实验室我还对它了解不深刻的。
总之，我现在知道Spark是应用在大数据方向上的一个东西。

用我的理解来看。
在大数据方面，有个比较流行的东西，Hadoop MapReduce。
Spark从字面的意思看，是电火花的意思。隐含着它计算是很快的。
大数据可以看成是一种资源的。
利用这种资源的工具就是Hadoop MapReduce或者是Spark。
具体的应用层面，就是【数据挖掘】和【机器学习】。
如果你要进行【数据挖掘】和【机器学习】这两个方面的工作，
很多时候就需要迭代MapReduce算法。要重复的。
不停地算不停地算。
这里有一个问题，运算的中间结果怎么处理?
Hadoop是把中间结果放在了HDFS上。
这个HDFS是hadoop分布式文件系统的一个简称。
洋文的名字是: Hadoop Distributed File System
它是个很不错的东西，能在便宜的机器上布置的。
所以提到HDFS的时候，依我的水平，我只能把它理解成硬盘。
Hadoop把中间结果是放在这个地方的。
Spark把中间结果是放在内存当中的。所以Spark会快一点的。
它用了个技术叫【内存分布数据集】，在进行大量迭代计算的时候，
能够很好地优化负载的。

所以，从这一段的描述可以看出，Spark是有两个优点的。
一个就是快，一个就是优化负载。这两个优点大概都是起源一个原因，就是使用了内存分布数据集。那么，这又是为什么呢，因为Spark是和Scala语言紧密集成的。
所以逻辑关系应该是下面这样的。
1.Spark和Scala语言紧密继承。
2.Spark可以像操作本地集合一样操作分布式数据集
3.Spark很快而且负载优化能力很强。

实际上,Spark是一种对Hadoop的补充，在Hadoop文件系统中可以运行Spark的。
可以应用一个框架叫做Mesos。这是一个第三方集群框架。
它是Spark和Hadoop的媒人。
他们主要是用来构建【分析应用程序】的，就是大数据的分析技术。

有一些基本的东西要知道。
1.Spark比Hadoop快100倍。
2.Spark有80个高级运算符。
3.Spark有很多库。
SQL,DataFrames,MLib,GraphX,Spark Streaming
4.支持多种资源管理器
Hadoop YARN,Apache Mesos