
Spark入门
C小C
这个作者很懒,什么都没留下…
展开
-
【Spark入门(4)】SparkStreaming基础
SparkStream主要是通过DStream抽象来实现伪流式计算(微批次,准实时),主要内容包括:DStream抽象:离散化流(discretized stream),DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在。DStream的操作,底层是RDD,分为无状态操作(transform,保留当前采样区间的数据)和有状态操作(UpdateStateByKey、window)DStream创建:自定义数据源需要继承Receiver,并实现 onSta原创 2021-12-08 21:03:05 · 465 阅读 · 0 评论 -
【Spark入门(3)】SparkSQL基础
本文是课程尚硅谷大数据Spark教程的SparkSQL基础部分的思维导图。SparkSQL主要是通过sql语句来简化RDD的开发流程原创 2021-12-01 20:12:42 · 1712 阅读 · 0 评论 -
【Spark入门(2)】SparkCore之RDD核心编程
【时间】2021.10.26【题目】【Spark入门(2)】SparkCore之RDD核心编程一、引言本文是课程尚硅谷大数据Spark教程的SparkCore之RDD核心编程部分的思维导图。包括RDD的转换算子和行动算子、累加器、广播变量的基本使用等。视频链接:SparkCore之RDD核心编程二、思维导图...原创 2021-10-26 20:41:35 · 469 阅读 · 0 评论 -
【Spark入门(1)】SparkCore之概述与运行环境
【时间】2021.10.15【题目】【Spark入门(1)】Spark概述与运行环境一、引言本文是课程尚硅谷大数据Spark教程的Spark概述与运行环境部分的思维导图。Spark概述与运行环境二、思维导图...原创 2021-10-15 17:13:09 · 162 阅读 · 0 评论