SparkStreaming的运行流程

本文介绍了Spark Streaming的工作原理及运行流程,从提交ApplicationJar开始,详细解释了如何创建Application并初始化StreamingContext,再到资源分配、接收数据、生成block块以及最终转化为RDD的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

运行流程:

1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入口StreamingContext

2Master会为这个Application的运行分配资源,在集群中的一台或者多台Worker上面开启Excuterexecuter会向Driver注册;

3Driver服务器会发送多个receiver给开启的excuter,(receiver是一个接收器,是用来接收消息的,在excuter里面运行的时候,其实就相当于一个task任务)

4receiver接收到数据后,每隔200ms就生成一个block块,就是一个rdd的分区,然后这些block块就存储在executer里面,block块的存储级别是Memory_And_Disk_2

5receiver产生了这些block块后会把这些block块的信息发送给StreamingContext

6StreamingContext接收到这些数据后,会根据一定的规则将这些产生的block块定义成一个rdd


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值