今天的内容
今天上午,跟客户一起讨论了导航的网络架构的问题。其他时间都是在整理一些文档。中午的时候开了一周的例会,下午的时候是整理申请的东西。晚上的时候是开会
今天上午还解决了,瘦终端序列号的问题。
这些都不再谈了。
主要是晚上的时候,跟ES还有大数据的人一起讨论问题。我接触到了几个自己不是很精深的问题。
恒定的频率
说一点题外的话,我现在是比较信PT的。我认为,世界上是有像匀速直线运动一样恒定优美的频率的,只要让自己时刻保持这样的频率,美好的东西自然都会被吸引到身边。这是我现在相信的东西。我要不断强化自己的这个思想,让它生出更多精神的力量。
按照PT的教法,了解一个东西,要分三个步骤的,what,how,why.
what
我了解一个东西,喜欢从历史开始。
Spark是个框架。
Spark是个计算引擎。
Spark是个开源的集群计算环境。
这三个回答,可以解决Spark是个什么东西的问题。
Spark诞生的地方是,UC Berkeley AMP Lab,加州大学伯克利分校的AMP实验室。
这个学校我是知道的。BSD就是从这个学校搞出来的。
AMP实验室我还对它了解不深刻的。
总之,我现在知道Spark是应用在大数据方向上的一个东西。
用我的理解来看。
在大数据方面,有个比较流行的东西,Hadoop MapReduce。
Spark从字面的意思看,是电火花的意思。隐含着它计算是很快的。
大数据可以看成是一种资源的。
利用这种资源的工具就是Hadoop MapReduce或者是Spark。
具体的应用层面,就是【数据挖掘】和【机器学习】。
如果你要进行【数据挖掘】和【机器学习】这两个方面的工作,
很多时候就需要迭代MapReduce算法。要重复的。
不停地算不停地算。
这里有一个问题,运算的中间结果怎么处理?
Hadoop是把中间结果放在了HDFS上。
这个HDFS是hadoop分布式文件系统的一个简称。
洋文的名字是: Hadoop Distributed File System
它是个很不错的东西,能在便宜的机器上布置的。
所以提到HDFS的时候,依我的水平,我只能把它理解成硬盘。
Hadoop把中间结果是放在这个地方的。
Spark把中间结果是放在内存当中的。所以Spark会快一点的。
它用了个技术叫【内存分布数据集】,在进行大量迭代计算的时候,
能够很好地优化负载的。
所以,从这一段的描述可以看出,Spark是有两个优点的。
一个就是快,一个就是优化负载。这两个优点大概都是起源一个原因,就是使用了内存分布数据集。那么,这又是为什么呢,因为Spark是和Scala语言紧密集成的。
所以逻辑关系应该是下面这样的。
1.Spark和Scala语言紧密继承。
2.Spark可以像操作本地集合一样操作分布式数据集
3.Spark很快而且负载优化能力很强。
实际上,Spark是一种对Hadoop的补充,在Hadoop文件系统中可以运行Spark的。
可以应用一个框架叫做Mesos。这是一个第三方集群框架。
它是Spark和Hadoop的媒人。
他们主要是用来构建【分析应用程序】的,就是大数据的分析技术。
有一些基本的东西要知道。
1.Spark比Hadoop快100倍。
2.Spark有80个高级运算符。
3.Spark有很多库。
SQL,DataFrames,MLib,GraphX,Spark Streaming
4.支持多种资源管理器
Hadoop YARN,Apache Mesos
how
要写好这一点是不容易的。
Spark跟Hadoop是比较类似的东西。