
Spark
文章平均质量分 93
stable_阿甘
用心学习,用心做事
展开
-
Spark Shuffle
本文介绍了Spark Shuffle的演进,以及Spark中各种数据操作所应用的Shuffle类型,最后介绍了Spark Shuffle和MR Shuffle的优缺点原创 2023-01-13 18:35:45 · 932 阅读 · 0 评论 -
Spark物理执行计划
本文介绍了spark物理执行计划的生成方式原创 2023-10-27 08:08:46 · 209 阅读 · 0 评论 -
Spark逻辑执行计划
本文介绍了spark逻辑执行计划的生成逻辑原创 2023-10-27 08:01:53 · 284 阅读 · 0 评论 -
spark sql
一、简介1.1 什么是 Spark SQL Spark SQL 是 Spark 用来处理结构化数据的一个模块,结构化数据就是指任何有结构信息得数据。所谓结构信息,就是每条记录共用已知的字段集合(RDD 是没有结构的)。 Spark 对执行计划进行了优化,所以它的执行效率一般要比单纯使用 RDD 要高。1.2 什么 DataFrame 与 RDD 类似,DataFrame 也是一个分布式数据容器。但 DataFrame 更像传统数据库的二维表格,除了数据外,还记录了数据的结构信息。1.3原创 2020-05-19 11:34:19 · 225 阅读 · 0 评论 -
RDD 算子
文章目录一、Value 类型1.1 map(func)1.2 mapPartition(func)1.3 mapPartitionWithIndex(func)1.4 flatMap(func)1.5 glom1.6 groupBy(func)1.7 filter(func)1.8 sample(withReplacement, fraction, seed)1.9 distinct([numTasks])1.10 coalesce(numPartitions, shuffle = false)1.11 r原创 2020-05-19 11:30:31 · 367 阅读 · 0 评论 -
累加器和广播变量
一、简介 Spark 中的三大数据结构:RDD,累加器,广播变量。 累加器和广播变量属于共享变量,累加器是只写变量,广播变量是只读变量。 共享变量是指可以在 Excutor 上来更改(累加器) 和读取(广播变量) Driver 上的数据。二、累加器2.1 用途 累加器的常见用途是在调试时对作业执行的过程中的事件进行计数。例如:统计 100 内的偶数的个数。2.2 用法通过调用 SparkContext 的 accumulator(initiaValue) 方法来创建累加器 ac在原创 2020-05-19 11:28:03 · 568 阅读 · 0 评论 -
spark 任务划分
一、宽窄依赖1.1 窄依赖 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女1.2 宽依赖 宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition,会引起shuffle,总结:宽依赖我们形象的比喻为超生二、DAG DAG 叫做有向无环图,原始的 RDD 通过一系列转换就形成了 DAG,根据 RDD 之间的依赖关系将 DAG 划分为不同的 Stage,对于窄依赖,partition 的处原创 2020-05-19 11:25:59 · 558 阅读 · 1 评论 -
Spark RDD
一、RDD 是什么 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 不可变:RDD 一旦创建就把它封装的计算都确定下来了,不能再对其进行改变,只能产生新的 RDD,这样的好处是可以让在任务失败的时候,顺着 RDD 中的血缘推回到失败前的状...原创 2020-04-19 21:38:30 · 177 阅读 · 0 评论 -
Spark——自己对RDDs概念的理解
什么是RDDsRDDs:Resilient Distributed Datasets。RDD是一个可以使程序员在大的集群上以容错的方式进行计算的分布式内存抽象。为什么会诞生RDDs现有的计算框架在迭代算法和交互数据挖掘挖掘方面性能太差,因为它们会进行频繁的I/O操作,RDD实现了在内存中计算,将计算性能提高了一个量级。RDD通过提供粗粒度的transformations来提供容错,它记录的...原创 2019-12-05 23:39:53 · 280 阅读 · 0 评论 -
Spark Streaming概述
一、SparkStreaming 概述1.1 SparkStreaming 是什么 SparkStreaming 是 Spark Core 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。SparkStreaming 可支持很多种数据来源,如 kafka、flume 等,也可以把结果保存到很多地方,如 HDFS、数据库等。1.2 SparkStreaming 架构及工作流程1.2...原创 2020-03-23 12:54:33 · 609 阅读 · 0 评论 -
一、Spark 架构及运行模式
一、Spark 是什么 Spark 是基于内存计算的框架。二、Spark 产生的背景 Spark 产生的原因主要是为了解决 Hadoop 的缺点,这里有一个时间线可以引出 Spark 的诞生。1、Hadoop 1.x——2011年 (Hadoop 1.x 架构) ( H...原创 2020-03-09 11:43:13 · 277 阅读 · 3 评论