
spark
独照松月冷别赋
未来的你一定会感谢现在拼命的自己.....
展开
-
RDD基本特性
RDD基本特性 1、什么叫RDD? 2、RDD有怎么样的特性? 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3、RDD通常通过Hadoop上原创 2017-09-22 15:54:11 · 741 阅读 · 0 评论 -
spark性能调优之数据本地化
spark性能调优之调节数据本地化等待时长 数据本地化级别 1.PROCESS_LOCAL:进程本地化,代码和数据在同一个进程中,也就是在同一个executor中;计算数据的task由executor执行,数据在executor的BlockManager中;性能最好 2.NODE_LOCAL:节点本地化,代码和数据在同一个节点中;比如说,数据作为一个HDFS bloc原创 2017-09-22 16:36:47 · 369 阅读 · 0 评论