- 博客(8)
- 问答 (2)
- 收藏
- 关注
原创 Structured Streaming 入门(整合、数据分析)
针对任何流式应用处理框架(Storm、SparkStreaming、StructuredStreaming和Flink等)处理数据时,都要考虑语义,任意流式系统处理流式数据三个步骤: 1、Receiving the data:接收数据源端的数据 采用接收器或其他方式从数据源接收数据(The data is received from sources using Receivers or otherwise)。
2023-03-16 00:52:30
513
原创 Structured Streaming 入门
Structured Streaming 是基于 Spark SQL 引擎构建的可扩展和容错流处理引擎. 基于Structured Streaming可以像对静态数据的批处理一样的进行流式计算操作. Spark SQL 引擎将负责以增量和连续的方式运行它,并随着流数据的不断到达而更新最终结果. 可以使用 Scala、Java、Python 或 R 中的来表示流聚合、事件时间窗口、流到批处理连接等计算在同一个优化的 Spark SQL 引擎上执行。
2023-03-16 00:48:58
544
原创 PySparkSQL( DataFrame进阶,函数定义)
开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚合函数是将多行变成一行,count,avg....开窗函数是将一行变成多行;聚合函数如果要显示其他的列必须将列加入到group by中开窗函数可以不使用group by,直接将所有信息显示出来。
2023-02-27 14:00:32
1376
原创 PySparkSQL 入门(概述、DataFrame操作)
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据第一、针对结构化数据处理,属于Spark框架一个部分第二、抽象数据结构:DataFrameDataFrame = RDD + Schema信息;第三、分布式SQL引擎,类似Hive框架从Hive框架继承而来,Hive中提供bin/hive交互式SQL命令行及HiveServer2服务,SparkSQL都可以;Spark SQL模块架构示意图如下。
2023-02-27 13:50:36
1418
原创 PySpark Core(Checkpoint、共享变量、RDD持久化)
RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用。
2023-02-12 13:23:30
471
原创 PySpark Core(基础,RDD创建,RDD操作)
在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中(以下简称 RDD Paper),Matei等人提出了RDD这种数据结构,文中开头对RDD的定义是:RDD设计的核心点为RDD提供了一个抽象的数据模型,不必担心底层数据的分布式特性。
2023-02-12 12:13:23
518
原创 SparkBase
定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。
2023-01-27 17:30:36
144
空空如也
echart如何在饼图玫瑰图的基础上加上外边框
2021-12-09
同步清洗数据库有什么比较好的方法?
2021-08-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人