
Spark
文章平均质量分 69
Spark - 批量计算框架
959y
奋斗ing
展开
-
Spark Structured Streaming - 1
Spark Structured Streaming 介绍和WC案例原创 2022-08-31 14:51:26 · 848 阅读 · 0 评论 -
Spark Streaming - 2
Spark Streaming Source/Transform/Sink/优雅关闭原创 2022-08-25 16:15:33 · 290 阅读 · 0 评论 -
Spark Streaming - 1
Spark Streaming 简单介绍以及WC案例原创 2022-08-24 23:20:06 · 270 阅读 · 0 评论 -
Spark GraphX_2
文章目录1.PageRank2.Pregel1.PageRank历史上,PageRank算法作为计算互联网网页重要度的算法被提出。PageRank是定义在网页集合上的一个函数,它对每个网页给出一个正实数,表示网页的重要程度,整体构成一个向量,PageRank值越高,网页就越重要,在互联网搜索的排序中可能就被排在前面。直观上,一个网页,如果指向该网页的超链接越多,随机跳转到该网页的概率也就越高,该网页的PageRank值就越高,这个网页也就越重要。一个网页,如果指向该网页的PageRank值越高,随机跳原创 2022-03-29 18:50:30 · 833 阅读 · 0 评论 -
Spark GraphX_1
文章目录1.基本概念1.基本概念图(Graph)由顶点(Vertex)和边(Edge)组成图根据边是否有方向,可以分为有向图和无向图有环图和无环图:原创 2022-03-29 13:54:03 · 355 阅读 · 0 评论 -
Spark Core - Spark_rdd_Source
文章目录1.From Memory2.From File3.From File1.From Memoryobject RDDTest01 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("rdd").setMaster("local") val sc = new SparkContext(sparkConf) val rdd1 = sc.parallel原创 2022-03-20 18:48:33 · 473 阅读 · 0 评论 -
Spark Core - Spark_rdd
文章目录1.RDD特点:2.RDD的 5大属性3.RDD的执行原理4.Spark的核心组件1.RDD特点:可变:存储的弹性容错的弹性计算的弹性分片的弹性RDD 代码中是一个抽象类, 代表弹性的, 不可变, 可分区, 里面的元素可并行计算的集合, 为弹性分布式数据集。RDD 不保存数据, 但是有血缘关系。不可变的是逻辑, 如果想加入新的逻辑, 必须封装。2.RDD的 5大属性分区列表分区计算函数多个RDD有依赖关系分区器: 一个分区的规则, 和Kafka 类似首选位原创 2022-03-19 17:10:02 · 1047 阅读 · 0 评论 -
Spark Streaming_面试题
文章目录1.什么是 Spark Streaming2.Spark Streaming 如何执行流式计算的?3.WordCount4. Spark Streaming 常用算子5.有状态转换算子6.Spark Streaming 如何实现精确一次消费7. 背压机制8.SparkStreaming 有哪几种方式消费 Kafka 中的数据1.什么是 Spark StreamingSpark Streaming 是一个基于 Spark Core 之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理原创 2021-12-15 14:12:15 · 1086 阅读 · 0 评论 -
Spark Sql_UDF_UDAF_Mysql_Hive
文章目录1.UDF2.UDAF3.Mysql数据源1.UDFobject Spark03 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("Sql").setMaster("local") val spark = SparkSession.builder().config(sparkConf).getOrCreate() val df = spark.re原创 2021-12-15 00:02:31 · 712 阅读 · 0 评论 -
Spark Core_面试题
文章目录1.什么是 RDD ?2.RDD 的五大属性是啥3.说一些常用的 RDD 算子4.你知道 map 和 mapPartitions 有啥区别吗5.reduceByKey 和 groupByKey6. reduceByKey、foldByKey、aggregateByKey、combineByKey 区别7.RDD 的宽窄依赖8.RDD的缺点9.DAG10. spark 中 job,stage,task11.Spark 广播变量和累加器12.Spark 实现 TopN 的获取1.什么是 RDD ?R原创 2021-12-14 19:32:04 · 657 阅读 · 0 评论 -
Spark面试_1_基础
1.Spark 是什么?Spark 是一个通用分布式内存计算引擎。2009 年在加州大学伯克利分校 AMP 实验室诞生,2014 年 2 月,Spark 成为 Apache 的顶级项目。2.Spark 有哪些特点Spark 使用 Scala 语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点:运行速度快:Spark 拥有 DAG 执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是 Hadoop Map原创 2021-12-12 14:01:20 · 332 阅读 · 0 评论 -
Spark Core - Shuffle过程详解
Shuffle洗牌Map阶段处理的数据如何传递给reduce阶段,shuffle在其中起到了很关键的作用,shuffle分布在MapReduce的map阶段和reduce阶段。Map的shuffle过程:主要包括输出、排序、溢写、合并等步骤,如下图所示:1、collect:每个Maptask都将数据输出到该Maptask对应的环形缓冲区Kvbuffer中,使用环形数据结构是为了更有效地使用内存空间,在内存中放置尽可能多的数据。2、Sort:在对数据进行合并的同时,会进行排序操作,由于 MapTa原创 2021-12-01 16:56:37 · 2319 阅读 · 0 评论 -
Spark Sql
Spark SQL简介Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。Spark SQL的特性集成无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python,Scala和Java中集成了API。这种紧密的集成使得可以轻松地运行SQL查询以及复杂的分析算法。统一数据访问加载和查询来自各种来源的数据。 Schema-原创 2021-11-30 18:52:01 · 648 阅读 · 0 评论 -
Spark Core - RDD_Transfom_转换算子
RDD的算子:转换算子和行动算子1.单valuemap,mapPar,mapParIndex,flatMap,glom,groupBy,filter,sample,distinct,coalesce,reparation,sortBy1.mapobject Spark01_RDD_Operation_Transform { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("原创 2021-11-29 19:45:39 · 551 阅读 · 0 评论 -
Spark Core - RDD_数据源与数据位置
RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。1.parallelize2/makeRDD3.textFile4.saveAsTextFilemakeRDD底层使用的就是parallelize,从内存中生成数据 def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withSc原创 2021-11-27 12:40:47 · 783 阅读 · 0 评论 -
Spark架构与组件
Spark遵循主从架构。它的集群由一个主服务器和多个从服务器组成。Spark架构依赖于两个抽象:弹性分布式数据集(RDD)有向无环图(DAG)RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性:1.存储 2.容错 3.计算 4.分片分布式:数据存储在集群上数据集:RDD封装了计算逻辑,并不保存数据数据抽象:RDD是一原创 2021-11-27 05:46:46 · 1077 阅读 · 0 评论 -
spark内核源码
spark内核结构:1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and ResultTaskyarn环境:除了yarn环境外还有k8s和mesos环境1.submitApplication2.启动ApplicationMaster3.AM通过参数启动Driver线原创 2021-11-09 22:00:05 · 923 阅读 · 0 评论