
spark3.0
文章平均质量分 54
旧城里的阳光
大数据开发
展开
-
spark3.0-sqparksql-总结知识要点
spark3.0-sqparksql-总结知识要点day01day011、SparkSQL是干嘛的?为什么会有SparkSQL?2、SparkSQL底层有什么编程抽象?3、hive on spark 和 spark on hive区别?我们学的SparkSQL是什么?4、DF、DS、RDD三者之间的区别和联系?5、DF、DS、RDD三者如何转换?(画图说明)6、SparkSQL中有两种什么语法?简述这两种语法的区别和联系。---------------------------原创 2021-03-03 21:09:08 · 210 阅读 · 0 评论 -
spark3.0-sparkcore-总结知识要点
spark3.0-sparkcore-总结day02-知识要点day03-知识要点day04-知识要点day05-知识要点day02-知识要点----------------------笔试---------------------------------1、什么是RDD?2、wordcount代码中算子的具体工作流程(各算子执行位置)?(可以画图说明)3、简述RDD的五大特性.4、RDD有几种创建方式?5、集合创建RDD,默认分区数和设置分区的算法6、读取文件创建RDD,默认分区原创 2021-02-27 13:23:22 · 331 阅读 · 0 评论 -
spark3.0-spark入门-总结知识要点
spark3.0-spark入门-总结知识要点day01-知识要点day01-知识要点1.Spark负责什么事,设计自己调度器的原因?2.Spark为什么比Hadoop快?3.如何提交一个Spark任务?主要参数有哪些?4.spark-standalone模式配置了哪些文件?5.spark-yarn模式配置了哪些文件?6.画出在Yarn-Client模式下提交任务的流程图。7.画出在Yarn-Cluster模式下提交任务的流程图。8.简述你所理解的spark不同运行模式之间的原创 2021-02-27 13:21:31 · 210 阅读 · 0 评论 -
spark3.0版本--SparkSQL
spark3.0版本--SparkSQL第1章 Spark SQL概述1.1 什么是Spark SQL1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1.3.2 什么是DataSet1.3.3 RDD、DataFrame和DataSet之间关系1.4 Spark SQL的特点第2章 Spark SQL编程2.1 SparkSession新的起始点2.2 DataFrame2.2.1 创建DataFrame2.2.3 DSL风格语法2.3 DataSet2原创 2021-02-27 13:19:04 · 1674 阅读 · 0 评论 -
15_spark_core_实战
15_spark_core_实战一.数据准备二.需求1:Top10热门品类2.1需求分析(方案一)常规算子2.2 需求实现(方案一)2.3 需求分析(方案二)样例类2.4 需求实现(方案二)2.5 需求分析(方案三)样例类+算子优化2.6 需求实现(方案三)2.7 需求分析(方案四)累加器2.8 需求实现(方案四)3 需求2:Top10热门品类中每个品类的Top10活跃Session统计3.1 需求分析3.2 需求实现4 需求3:页面单跳转化率统计4.1 需求分析4.2 需求实现一.数据准备1)数据格式原创 2021-02-26 08:19:50 · 247 阅读 · 0 评论 -
14_spark_core_广播变量
14_spark_core_广播变量一级目录二级目录三级目录一级目录二级目录三级目录原创 2021-02-26 08:18:52 · 188 阅读 · 0 评论 -
13_spark_core_累加器_累加器原理
13_spark_core_累加器_累加器原理累加器原理解析累加器原理解析一:两条线:要么自定义累加器,然后使用累加器,要么使用系统自带累加器二:图解----自定义累加器原理(1)自定义累加器(2)使用累加器(3)累加器怎么求和的Driver端有两个Executor,定义一个acc,其实就是一个空map,利用定义copy方法,往每个Executor传了一个空map,例如图中两个map进行累加,怎么累加的,使用add方法,单个executor分区内的聚合逻辑,看有没有,有,遇见一个加一个1,然原创 2021-02-26 08:17:46 · 789 阅读 · 0 评论 -
12_spark_core_累加器_自定义累加器
12_spark_core_累加器_自定义累加器自定义累加器总结自定义累加器自定义累加器类型的功能在1.X版本中就已经提供了,但是使用起来比较麻烦,在2.0版本后,累加器的易用性有了较大的改进,而且官方还提供了一个新的抽象类:AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。1)自定义累加器步骤(1)继承AccumulatorV2,设定输入、输出泛型(2)重写6个抽象方法(3)使用自定义累加器需要注册::sc.register(累加器,“累加器名字”)2)需求:自定义累加器原创 2021-02-25 15:22:20 · 327 阅读 · 0 评论 -
11_spark_core_累加器_系统累加器
11_spark_core_累加器_系统累加器累加器系统累加器累加器累加器:分布式共享只写变量。(Executor和Executor之间不能读数据)累加器用来把Executor端变量信息聚合到Driver端。在Driver中定义的一个变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行合并计算。系统累加器1)累加器使用(1)累加器定义(SparkContext.accumulator(initialValue)方法)v原创 2021-02-25 14:59:04 · 214 阅读 · 0 评论 -
10.2_spark_core_文件系统类型读取与保存
10.2_spark_core_文件系统类型读取与保存文件系统类数据读取与保存Spark数据读取与保存总结文件系统类数据读取与保存Spark的整个生态系统与Hadoop是完全兼容的,**所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持。**另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口。如TextInputFormat,新旧两个版本所引用分别是org.apache.hadoop.mapred.InputFo原创 2021-02-25 14:16:25 · 124 阅读 · 0 评论 -
10_spark_core_数据读存_obj文件
10_spark_core_数据读存_obj文件Object对象文件总结Object对象文件对象文件是将对象序列化后保存的文件,采用hadoop的序列化机制。可以通过objectFile[k,v](path)函数接收一个路径,读取对象文件,返回对应的RDD,也可以通过调用saveAsObjectFile()实现对对象文件的输出。因为要序列化所以要指定类型。1)代码实现package com.atguigu.readAndSaveimport org.apache.spark.rdd.RDDim原创 2021-02-25 13:53:32 · 126 阅读 · 0 评论 -
09_spark_core_数据读存_seq文件
08_spark_core_数据读存_text文件Sequence文件总结Sequence文件SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中,可以调用sequenceFilekeyClass, valueClass。1)代码实现package com.atguigu.readAndSaveimport org.apache.spark.rdd.RDDimport org.apache.s原创 2021-02-25 13:35:05 · 420 阅读 · 0 评论 -
08_spark_core_数据读存_text文件
08_spark_core_数据读存_text文件文件类数据读取与保存总结:文件类数据读取与保存1)创建包名:com.atguigu.readAndSave1)基本语法(1)数据读取:textFile(String)(2)数据保存:saveAsTextFile(String)2)代码实现package com.atguigu.readAndSaveimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, Spar原创 2021-02-25 13:18:29 · 304 阅读 · 0 评论 -
07_spark_core_键值对RDD分区规则
07_spark_core_键值对RDD分区规则键值对RDD数据分区总结键值对RDD数据分区Spark目前支持Hash分区、Range分区和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区和Reduce的个数。1)注意:(1)只有Key-Value类型的RDD才有分区器,非Key-Value类型的RDD分区的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。原创 2021-02-25 13:00:34 · 161 阅读 · 0 评论 -
Spark3.0版本--chapter2.7--RDD持久化
加粗样式@TOCllll你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽原创 2021-02-25 00:06:21 · 1706 阅读 · 5 评论 -
05_spark_core_持久化_缓存和检查点的区别
05_spark_core_持久化_缓存和检查点的区别缓存和检查点区别缓存和检查点区别1)Cache缓存只是将数据保存起来,不切断血缘依赖。Checkpoint检查点切断血缘依赖。2)Cache缓存的数据通常存储在磁盘、内存等地方,可靠性低。Checkpoint的数据通常存储在HDFS等容错、高可用的文件系统,可靠性高。3)建议对checkpoint()的RDD使用Cache缓存,这样checkpoint的job只需从Cache缓存中读取数据即可,否则需要再从头计算一次RDD。4)如果使用完了缓存原创 2021-02-25 10:17:46 · 399 阅读 · 0 评论 -
06_spark_core_持久化_检查点存储在HDFS上
06_spark_core_持久化_检查点存储在HDFS上检查点存储在HDFS上检查点存储在HDFS上如果检查点数据存储到HDFS集群,要注意配置访问集群的用户名。否则会报访问权限异常。原创 2021-02-25 12:38:05 · 192 阅读 · 0 评论