
Spark
JIESA
这个作者很懒,什么都没留下…
展开
-
Spark RDD基本操作
Spark RDD Scala语言编程RDD(Resilient Distributed Dataset)是一个不可变的分布式对象集合, 每个rdd被分为多个分区, 这些分区运行在集群的不同节点上。rdd支持两种类型的操作:转化(trainsformation)和行动(action), Spark只会惰性计算rdd, 也就是说, 转化操作的rdd不会立即计算, 而是在其第一次遇到行动操转载 2017-07-27 13:12:30 · 968 阅读 · 0 评论 -
【Spark系列2】reduceByKey和groupByKey区别与用法
在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为转载 2017-09-18 22:03:07 · 643 阅读 · 0 评论 -
Spark RDD之Partition
概要Spark RDD主要由Dependency、Partition、Partitioner组成,Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了task的数量,影响着程序的并行度,所以理解Partition是了解spark背后运行原理转载 2017-11-02 20:44:00 · 499 阅读 · 0 评论 -
Spark 中的宽依赖和窄依赖
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子R转载 2017-11-02 20:54:50 · 594 阅读 · 0 评论 -
Spark里几个重要的概念及术语
学习Spark,有几个重要的术语需要弄清楚。1. Application用户在spark上构建的程序,包含了driver程序以及集群上的executors.2. Driver Program运行main函数并且创建SparkContext的程序。客户端的应用程序,Driver Program类似于hadoop的wordcount程序的main函数转载 2017-12-27 20:49:56 · 709 阅读 · 0 评论 -
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输转载 2017-12-27 20:57:07 · 2081 阅读 · 0 评论 -
Spark基础与Java Api介绍
一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转转载 2017-05-24 14:38:33 · 744 阅读 · 0 评论 -
Spark 序列化问题全解
在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.ClosureC...转载 2018-04-18 20:14:59 · 1661 阅读 · 0 评论