Spark
文章平均质量分 77
夜晓楼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 2.0 Programming Guide 翻译(PySpark)
最近在看Spark,感觉一直找不到头绪,就试着根据自己的理解把Spark的Programming Guide 翻译了,其中肯定会有诸多不合适和理解不到位的地方,权当自己的笔记好了。 1、spark2.0 工作依靠python2.6+或python3.4+ ,他可以使用标准的cpython解释器,所以说C libraries 例如numpy可以使用,它工作依靠pypy2.3+原创 2016-08-27 23:36:07 · 1156 阅读 · 0 评论 -
Spark学习笔记--Spark基础知识
1、RDD表示分布在多个计算节点上的可以并行操作的元素集合,是spark主要的变成抽象。 Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件 Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序 2、从上层来看,每个saprk应用都有一个驱动器程序(driver programmer)来发起集群上的各种并行操作。 驱动器程序通过原创 2016-09-08 22:57:56 · 4341 阅读 · 0 评论 -
Spark学习笔记-键值对操作
1、键值对RDD通常用来进行聚合操作。 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD。pairRDD 提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 例如: reduceByKey()方法,可以分别规约每个键对应的数据;join()方法,可以把两个RDD中键相同的元素组合到一起,合并为一个RDD。 2、原创 2016-09-08 22:59:15 · 1540 阅读 · 0 评论 -
PySpark-aggregate函数说明
聚集各分区内的元素,并利用combOp和zerovalue函数将各分区合并 The functions op(t1, t2) is allowed to modify t1 and return it as its result value to avoid object allocation; however, it should not modify t2. 函数 op(t原创 2016-10-08 15:58:18 · 5100 阅读 · 1 评论
分享