
Spark
文章平均质量分 62
我是一名程序猿
延青的格言:会当凌绝顶,一览众山小。
展开
-
理解Spark
什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,...原创 2018-08-11 22:56:05 · 626 阅读 · 0 评论 -
Spark Core——RDD
概念RDD(Resilient Distributed Dateset),弹性分布式数据集RDD 的五大特性1. RDD 是由一系列的 partition 组成的。2. 函数是作用在每一个 partition(split)上的。3. RDD 之间有一系列的依赖关系。4. 分区器是作用在 K,V 格式的 RDD 上。5. RDD 提供一系列最佳的计算位置。RDD概念模...原创 2018-08-11 23:03:45 · 192 阅读 · 0 评论 -
Spark任务执行原理
首先,先看一幅图以上图中有四个机器节点,Driver 和 Worker 是启动在服务器节点上的进程,这些进程都运行在 JVM 中。上述图的运行步骤:Driver 与集群节点之间有频繁的通信。 Driver 负责任务(tasks)的分发和结果的回收、任务的调度。如果 task的计算结果非常大就不要回收了,会造成 OOM(内存溢出)。 Worker 是 Standalone 资源调...原创 2018-08-12 21:51:28 · 272 阅读 · 0 评论 -
Spark运行方式
下面是Spark运行方式图解构建Spark Application的运行环境,启动SparkContext SparkContext向资源管理器(可以是Standalone,Mesos,Yarn)申请运行Executor资源,并启动standaloneExecutorbackend Executor向SparkContext申请Task SparkContext将应用程序分发给Exe...原创 2018-08-12 22:14:37 · 362 阅读 · 0 评论 -
Standalone模式两种提交任务方式
第一种方式Standalone-client提交任务方式提交命令-方式1:./spark-submit--master spark://node1:7077--class org.apache.spark.examples.SparkPi../lib/spark-examples-1.6.0-hadoop2.6.0.jar1000提交命令-方式2: ./spark-su...原创 2018-08-12 22:28:10 · 7514 阅读 · 0 评论 -
YARN提交任务的两种方式
第一种方式:yarn-client提交任务方式Yarn-client模式提交命令写法1:./spark-submit--master yarn--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100Yarn-client模式提交命令写法2:./spark...原创 2018-08-12 22:52:28 · 9989 阅读 · 0 评论 -
Spark运行模式
Local多用于本地开发测试,如在 eclipse,idea 中写程序测试等StandaloneStandalone是Spark自带的一个资源调度框架,它支持完全分布式组成:由Master + slave构成的Spark集群详见博文:https://blog.youkuaiyun.com/baidu_35901646/article/details/81611878YarnHado...原创 2018-08-12 22:55:26 · 162 阅读 · 0 评论 -
Spark-Submit提交参数详解
通用可选参数: --master MASTER_URL, 可 以 是 spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local--deploy-mode DEPLOY_MODE, Driver 程序运行的地方,client 或者 cluster,默认是client。...原创 2018-08-12 23:10:21 · 11921 阅读 · 2 评论 -
Spark共享变量——广播变量和累加器
什么是共享变量通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。所以Spark提供了两种有限类型的共享变量,广播变量和累加器。广播变量广播变量原理图:广播变量的运用:v...原创 2018-08-13 12:50:37 · 1705 阅读 · 0 评论