SparkStreaming的编程模型及原理的认识

最新推荐文章于 2021-11-08 01:24:02 发布

原创最新推荐文章于 2021-11-08 01:24:02 发布 · 264 阅读

2 ·

CC 4.0 BY-SA版权

SparkStreaming 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了SparkStreaming的核心数据结构DStream及其组成元素RDD的特点与作用。详细解释了RDD的属性，如分区列表、依赖列表等，并阐述了yarn-cluster模式下SparkStreaming任务提交流程。

SparkStreaming的编程模型及原理的认识

数据结构

DStream ：SparkStreaming中使用的数据结构，代表一个连续的数据流，是由一系列带有时间维度的RDD组成
在这里插入图片描述

RDD：只读、有分区的数据集，利用有向无环图（DAG）记录数据结构之间的变化，属性如下：

属性	含义	使用场景
分区列表— partitios	每个分区存储RDD的一部分数据
分区位置列表—preferredLocations	记录每个分区数据存储在哪台机器节点上	重写方法getPreferredLocations，实现让分区尽可能和数据在相同的机器上
依赖列表—dependencies	记录RDD的依赖关系
分区器—partitioner	记录RDD的依赖关系	重写方法getPartitions，按自定义方式分区，目前支持Hash和Range分区
计算函数—compute	利用父分区计算RDD分区的值

yarn-cluster提交任务流程

在这里插入图片描述
流程描述：
1.SparkStreaming任务提交后，Client向HDFS上传SparkStreaming的Jar包和配置，之后向Yarn ResourceManager提交任务
2. ResourceManager通知对应的NodeManager启动ApplicationMaster，ApplicationMaster启动后加载SparkStreaming的Jar包和配置构建环境,启动Driver（包含SparkStreamingContext和SparkContext）
3. ApplicationMaster向ResourceManager申请资源启动Executor，ResourceManager分配Executor资源后，由ApplicationMaster通知资源所在节点的NodeManager启动Executor
4. Executor启动后向Driver发送心跳包，并等待Driver向其分配任务