
Spark
渊飞
这个作者很懒,什么都没留下…
展开
-
Intellij配置Spark
1配置“Global Libraries”,将Scala SDK作为Global Library 2添加依赖的Jars,在“Project Structure”左侧选择“Modules”,单击“Dependencies”,并选择Spark所需要的Jar文件。 3选择和导入的所有Jar文件位于“External Libraries”目录下,同时可以检查所有的Jar文件是否正确。 ...原创 2021-09-20 20:06:33 · 296 阅读 · 0 评论 -
Spark编程模型(三):Spark算子(4)-Action算子
5-3.1 rdd.reduce通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据>>> from operator import add >>> sc.parallelize([1, 2, 3, 4, 5]).reduce(add) 15 >>> sc.parallelize((2 for _ in range(10))).map(lambda x: 1).cache().reduce(add) 10 >原创 2020-08-27 20:56:16 · 325 阅读 · 0 评论 -
Spark编程模型(三):Spark算子(3)-Key-Value型(键值对)算子
5-2.1 rdd.partitionBypartitionBy(numPartitions,partitionFunc=<function portable_hash>)作用:对pairRDD进行分区操作,如果原有的partitionRDD和现有的partitionRDD是一致的话就不进行分区,否则会生成shuffleRDD,即会产生shuffle过程。>>> pairs = sc.parallelize([1, 2, 3, 4, 2, 4, 1]).map..原创 2020-08-27 20:49:49 · 476 阅读 · 0 评论 -
Spark编程模型(三):Spark算子(2)-双Value型Transformation算子
RDD支持多个Value来进行转换操作,即RDD支持多RDD的计算5-1.1 rdd.union(other RDD) 并集运算返回RDD与其他RDD的结合>>> rdd = sc.parallelize([1, 1, 2, 3]) >>> rdd.union(rdd).collect() [1, 1, 2, 3, 1, 1, 2, 3]5-1.2 rdd.subtract(other RDD) 差集运算返回自身不包括其他RDD的集合>原创 2020-08-27 20:45:31 · 164 阅读 · 0 评论 -
Spark编程模型(三):Spark算子(1)-单值型Transformation算子
5.1 rdd.mapmap(f,preservesPartitioning=False)作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成>>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorted(rdd.map(lambda x: (x, 1)).collect())[('a', 1), ('b', 1), ('c', 1)]5.2 rdd.mapPartitions..原创 2020-08-27 20:42:06 · 208 阅读 · 0 评论 -
Spark编程模型(二):RDD简介
RDD是Spark应用开发过程中最为基本也是最为重要的一类数据结构,RDD被定义为只读、分区化的记录集合,更为通俗来讲,RDD是对原始数据的进一步封装,封装导致两个结果:第一个结果是数据访问权限被限制,数据只能被读,而无法被修改;第二个结果是数据操作功能被强化,使得数据能够实现分布式存储、并发处理、自动容错等诸多功能。Spark的整个计算过程都是围绕数据集RDD来进行。 4.1 ...原创 2020-03-08 21:01:29 · 391 阅读 · 0 评论 -
Spark编程模型(一):SparkContext的作用
开发人员根据自己的需求,在main函数中调用Spark提供的数据操纵接口,利用集群来对数据执行并操作。Spark为开发人员提供了两类抽象接口。第一类抽象接口是弹性分布式数据集RDD,其是对数据集的抽象封装,开发人员可以通过RDD提供的开发接口来访问和操纵数据集合,而无需了解数据的存储介质(内存或磁盘)、文件系统(本地文件系统、HDFS或Tachyon)、存储结点(本地或远程结点)等诸多实现...原创 2020-02-22 19:13:24 · 922 阅读 · 0 评论 -
Spark原理与机制初探
1.Spark 作为Spark生态系统的核心,Spark主要提供基于内存计算的功能,不仅包含Hadoop的计算模型MapReduce,还包含很多其他的API,如reduceByKey、groupByKey、foreach、join和filter等。Spark将数据抽象为RDD,有效地扩充了Spark编程模型,使Spark成为多面手,能让交互式查询、流处理、机器学习和图计算无缝交叉融合,极...原创 2019-09-09 22:29:48 · 173 阅读 · 0 评论