
Spark
文章平均质量分 96
Icedzzz
这个作者很懒,什么都没留下…
展开
-
Spark源码剖析——SparkContext
SparkContext:通常而言,用户开发的Spark应用程序的提交与执行都离不开SparkContex的支持。在正式提交应用程序之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储体系、计算引擎、度量系统、文件服务、Web UI等内容,应用程序开发者只需要使用SparkContext提供的API完成功能开发。但SparkContext中最重要的两个功能就是:DAGScheduler和TaskScheduler初始化SparkContext,创原创 2021-06-29 21:44:05 · 477 阅读 · 3 评论 -
Structured Streaming总结
0. SparkSQL与DStream流在DStream中,我们想要对数据操作进行DataFrame操作和sql语句,必须使用foreachRDD/transform类算子操作DStream中每个RDD,同时通过StreamingContext创建SQLContext,然后将每个RDD转换成DataFrame以临时表格配置并用 SQL 进行查询。例如下:val spark = SparkSession.builder.config(conf).getOrCreate()import spark.imp原创 2021-06-20 19:19:47 · 1432 阅读 · 1 评论 -
Spark SQL :日志分析实战练习
从网上找到SparkSql分析慕课网日志数据的视频,用其中的数据巩固复习上个星期学的Spark知识;1.需求和数据描述需求很简单,就是根据日志数据从地市、流量、点击数三个方面求一系列topN。原始数据:提取我们需要的字段:1.ip ; 2.时间+市区 ;3.流量(状态码后面的);4.页面发送的URL;183.162.52.7 - - [10/Nov/2016:00:01:02 +0800...原创 2020-03-11 02:31:37 · 764 阅读 · 0 评论 -
深入学习Spark SQL :SparkSQL执行流程
主要参考书籍:《Spark SQL 内核剖析》参考博客:http://hbasefly.com/2017/03/01/sparksql-catalyst/http://www.uml.org.cn/bigdata/201706082.asp文章目录1.Spark执行流程概述SparkSQL的使用一般步骤:Spark对SQL语句的转换2.Catalyst基础的SQL优化器理论:Catalyst...原创 2020-03-21 22:16:32 · 2848 阅读 · 0 评论 -
Spark:zookeeper或者Kafka记录偏移量
Spark:2.4 ,适用于Kafka:0.10.0及以上1. zookeeper记录偏移量object KafkaDirectWordCount_zookeeper { def main(args: Array[String]): Unit = { val group = "g001" val topic = "wordcount" val topics = A...原创 2020-03-26 17:38:59 · 713 阅读 · 0 评论 -
SparkStreaming :流处理基础和DStream
1. 什么是流处理基础概念流处理是连续处理新到来的数据以更新计算结果的行为,我们将流处理定义为在无边界数据集上的增量处理。 它是一系列到达流处理系统的事件(例如,信用卡交易,点击网站动作,或从物联网 IoT 传感器读取的数据),用户应用程序对此事件流可以执行各种查询操作。批处理是在固定大小输入数据集上进行计算的,也可以进行查询计算,但只计算一次结果。虽然流处理和批处理是不同的,但在实践中需要一...原创 2020-03-30 15:08:44 · 591 阅读 · 1 评论 -
SparkCore 基础概念
RDDRDD的概念1.RDD是什么?RDD是spark中的一个最基本的抽象,代表着一个不可变、可分区、可以并行计算的分布式数据集;2.为什么不用MapReduce?MapReduce的缺陷:1.无法在并行计算的各个阶段进行有效的数据共享;2.启动时间较长,MapReduce过程几乎什么都不做,光启动就需要20-30s;3.MapReduce会频繁地对磁盘进行读写操作,然而这些磁盘I...原创 2020-02-13 00:10:00 · 245 阅读 · 0 评论 -
Spark Core 案例总结
Spark Core学习对最近在看的赵星老师Spark视频中关于SparkCore的几个案例进行总结。目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤器3. 方法三:自定义分区器3.根据IP计算归属地1.WordCountSpark Core入门案例。//创建spark配置,设置应用...原创 2020-02-17 21:31:42 · 737 阅读 · 0 评论 -
SparkSQL:基础概念
SparkSQL1. 基础概念Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。与HiveSql的区别:Hive SQL是通过转换成MapReduce任务,然后提交到集群上执行,简化了编写MapReduce的程序的复杂性。但由于MapReduce这种计算模型执行效率比较慢,Spark SQL的应运而生。...原创 2020-02-19 20:41:14 · 333 阅读 · 0 评论 -
SparkCore:序列化问题
第一种情况假设我们数据需要与规则数据进行匹配,在Class中定义规则,此时不对它进行序列化。Class Rules { val rulesMap = Map("hadoop" -> 1, "spark" -> 2)val hostname = InetAddress.getLocalHost.getHostNameprintln(hostname + "@@@@@@@@@@@...原创 2020-02-20 15:46:24 · 288 阅读 · 0 评论 -
SparkSql 处理各种数据源
文章目录SparkSql的各种数据源1.JDBC2.csv3.Json4.parquetSparkSql的各种数据源1.JDBC首先创建程序入口和jdbc连接:得到的是DataFrame类型数据:val spark = SparkSession.builder().appName("JdbcDataSource") .master("local[*]") .getOrCreate...原创 2020-02-28 20:11:14 · 1291 阅读 · 0 评论 -
Spark Core:Pair RDD
/** * :: Experimental :: * Generic function to combine the elements for each key using a custom set of aggregation * functions. Turns an RDD[(K, V)] into a result of type RDD[(K, C)], for a "combin...原创 2020-03-06 22:09:21 · 236 阅读 · 0 评论 -
Spark核心机制总结
1. RDDRDD是spark中的一个最基本的抽象,代表着一个不可变、可分区、可以并行计算的分布式数据集;RDD是一个基本的抽象,是对存储在分布式文件系统上的数据操作进行代理。RDD并不存储需要计算数据,而是一个代理,你对RDD进行的操作,他会在Driver端转换成Task,下发到Executor中,计算分散在集群中的数据。RDD是抽象的,并不存储数据,而是封装记录你对数据的操作。RDD计算是以分区为单位的RDD算子的操作包括两种类型:Transformation和Action;初始创建都是由Sp原创 2021-05-08 15:35:22 · 697 阅读 · 1 评论 -
Spark综合项目:企业电商分析平台
1. 背景说明2. 系统架构3.业务分析4.需求编码5.技术总结原创 2020-06-14 20:48:37 · 1648 阅读 · 4 评论