
Spark
Anonymous_cx
这个作者很懒,什么都没留下…
展开
-
Spark RDD API详解Map和Reduce
原始链接:https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的转载 2016-05-02 11:25:06 · 825 阅读 · 0 评论 -
Spark内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了。那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Spark内存管理模型的神秘面纱。 我们在《Spark源码分析之七:Task运行(一)》一文中曾经提到过,在Task被传递到Executor上去执行时,在为其分配的TaskRunne转载 2016-08-15 21:37:55 · 3192 阅读 · 0 评论 -
SparkSQL写数据到Hive的动态分区表
object HiveTableHelper extends Logging { def hiveTableInit(sc: SparkContext): HiveContext = { val sqlContext = new HiveContext(sc) sqlContext } def writePartitionTable(HCtx: HiveContext, in原创 2017-05-23 21:06:01 · 12858 阅读 · 4 评论