
Spark学习
gefeng1209
这个作者很懒,什么都没留下…
展开
-
[Spark学习04]Spark Transformation和Action
4.1 Transformation算子基本初始化private val conf: SparkConf = new SparkConf().setAppName("TestTransformation").setMaster("local") private val sparkContext = new SparkContext(conf)4.2 map、flatMap、map...原创 2019-12-19 13:31:50 · 178 阅读 · 0 评论 -
[Spark学习03]Spark的广播变量和累加器
3.1 概述在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变量(broadcast varia...原创 2019-12-18 21:02:07 · 173 阅读 · 0 评论 -
[Spark学习02]RDD
2.1 RDD概述什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD的属性...原创 2019-12-18 20:51:54 · 443 阅读 · 0 评论 -
[Spark学习01]Spark初识
1.1 什么是Spark中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hado...原创 2019-12-16 19:15:38 · 200 阅读 · 0 评论