
Spark学习
建世伟业
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记1——开篇介绍
1、Spark简介Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架。Spark应用程序可以使用R语言、Java、Scala和Python进行编写,极少使用R语言编写Spark程序,Java和Scala语言编写的Spark程序的执行效率是相同的,但Java语言写的代码量多,Scala简洁优雅,但可读性不如Java,Python...原创 2018-07-17 20:50:56 · 448 阅读 · 0 评论 -
Spark学习笔记2——RDD编程
1.RDD设计背景在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,类似Pregel等图计算框架也是将结果保存在内存当中,但是,这些框架只能支持一...原创 2018-07-17 23:02:03 · 828 阅读 · 0 评论 -
Spark学习笔记3——spark运行模式
Spark三种运行模式1.standalone模式与MapReduce1.0框架类似,Spark框架本身也自带了完整的资源调度管理服务,可以独立部署到一个集群中,而不需要依赖其他系统来为其提供资源管理调度服务。在架构的设计上,Spark与MapReduce1.0完全一致,都是由一个Master和若干个Slave构成,并且以槽(slot)作为资源分配单位。不同的是,Spark中的槽不再像Ma...转载 2018-07-18 17:04:49 · 457 阅读 · 0 评论 -
Spark学习笔记4——spark运行机制
Spark架构及运行机制Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)。其中,集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架。与Hadoop MapReduce计算框架相比,Sp...转载 2018-07-19 21:50:21 · 361 阅读 · 0 评论 -
Spark学习笔记5——容错机制
容错 指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性。一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间...转载 2018-07-20 09:31:25 · 357 阅读 · 0 评论 -
Spark学习笔记6——数据读取与保存
读写前的准备 我用的是ubuntu系统,打开“终端”,进入Shell命令提示符状态,然后,在“/usr/local/spark/mycode”目录下,新建一个wordcount子目录,并在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt(你可以在文本文件中随意输入一些单词,用空格隔开)。打开“终端”(可以在Linux...原创 2018-08-15 20:40:10 · 785 阅读 · 0 评论