Spark
文章平均质量分 82
大数据YYDS
致力于成为最强架构师的男人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Yarn Cluster模式下 spark提交流程和源码解析
这里是Yarn的Cluster模式,还有Yarn的Client模式以及StandAlone的Cluster和Client模式,这里先看最经典的; Yarn-Cluster模式: Cluster 模式将用于监控和调度的 Driver 模块启动在 Yarn 集群资源中执行。一般应用于实际生产环境。 1) 执行脚本提交任务,实际是启动一个 SparkSubmit 的 JVM 进程; 2) SparkSubmit 类中的 main 方法反射调用 YarnClusterApplication 的 main 方原创 2021-08-05 15:40:19 · 615 阅读 · 0 评论 -
Spark为什么比MR快
1、spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的 MapReduce的设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。 Spark的设计:基于内存,迭代计算的中间结果不落盘直接在内存中传递。只有shuffle时或中间结果内存存不下才落盘。而MR的中间结果肯定会落盘。比如运行pageRank或者机器学习的算法,有可能要迭代几百次。 2、spark中具有DAG有向无环图,DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数 转载 2021-08-02 13:06:02 · 2909 阅读 · 0 评论 -
Spark Shuffle和Mapreduce Shuffle
Spark Shuffle和Mapreduce Shuffle的区别 Spark Shuffle中包括Hash Shuffle(优化和未优化)、sortShuffle、BypassMergeSortShuffle MR Shuffle包括Map Shuffle和Reduce Shuffle //MR Shuffle Map端Shuffle从Map方法之后开始:环形缓冲区刷写、分区排序(分区标记在进入环形缓冲区之前已经打上、排序在刷写之前发生)、combine预聚合、归并排序、压缩 Reduce端Shuff原创 2021-08-02 12:20:16 · 467 阅读 · 0 评论 -
Spark算子介绍和比较
转换算子 1)map(func):返回一个新的 RDD,该 RDD 由每一个输入元素经过 func 函数转换后组成. 2)mapPartitions(func):类似于 map,但独立地在 RDD 的每一个分片上运行,因此在类型为 T 的 RD 上运行时, func 的函数类型必须是 Iterator[T] => Iterator[U]。假设有 N 个元素,有 M 个分区,那么 map 的函数的将被调用 N 次,而 mapPartitions 被调用 M 次,一个函数一次处理所有分区。 3)mapPa原创 2021-08-02 12:16:02 · 425 阅读 · 0 评论 -
Spark的本机、独立部署、Yarn集群部署模式
Spark一般有四种安装模式: Local、Standalone、Yarn、Mesos/K8S部署模式; 这里讲解前三种模式的部署和安装方式: 本文讲解内容以Spark-3.0.0版本为例: 本文内容参照尚硅谷Spark-3.0.0版本安装资料,在自己的集群上搭建完成;仅供复习时使用,如有搭建需求,请根据自己的集群修改对应文件名。 1.1、Local(本地)模式 1.1.1、 解压缩文件 将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中原创 2021-07-29 18:20:45 · 890 阅读 · 0 评论
分享