- 博客(13)
- 收藏
- 关注
原创 DT大数据梦工厂Spark定制班笔记(013)
Spark Streaming源码解读之Driver容错安全性 概述 Driver容错三个层面: 1. 数据层面: ReceivedBlockTracker负责管理Spark Streaming应用的元数据。 2. 逻辑层面: DStream 3. 作业调度层面,JobGenerator是Job调度层面的,负责监控具体调度到什么程度了。 源码分析 先进入ReceivedB
2016-05-24 22:47:32
390
原创 DT大数据梦工厂Spark定制班笔记(012)
Spark Streaming源码解读之Executor容错安全性 Executor的容错性主要有两种方式 1) WAL日志 2) 借助Spark RDD自身的容错机制 分别体现在receivedBlockHandler的两种实现上(ReceiverSupervisorImpl.scala 55-68) private val receivedBlockHandler: Re
2016-05-24 20:40:04
443
原创 DT大数据梦工厂Spark定制班笔记(011)
ReceiverTracker主要的功能: 1. 在Executor上启动Receivers。 2. 停止Receivers 。 3. 更新Receiver接收数据的速率(可以实现限流) 4. 接收Receivers的运行状态,只要Receiver停止运行,就重新启动Receiver。也就是Receiver的容错功能。 5. 接受Receiver的注册。 6. 借助Rece
2016-05-24 20:27:20
478
原创 DT大数据梦工厂Spark定制班笔记(010)
Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考 接第9讲的内容 Receiver是通过ReceiverSupervisor的start方法启动的 (ReceiverSupervisor.scala 129-132行):
2016-05-22 17:02:29
428
原创 DT大数据梦工厂Spark定制班笔记(009)
Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考 在经过了一系列的有关Spark Streaming Job的考察之后,我们把目光转向Receiver。 Spark Streaming中ReceiverInputDStream都是现实一个Receiver,用来接收数据。而Receiver可以有很多个,并且运行在不同的worker节点上。这
2016-05-22 15:43:05
352
原创 DT大数据梦工厂Spark定制班笔记(008)
Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考 DStream是RDD的模板,每隔一个batchInterval会根据DStream模板生成一个对应的RDD。然后将RDD存储到DStream中的generatedRDDs数据结构中。 DStream.scala(86行) private[streaming] var generatedRDDs = new
2016-05-22 15:19:24
454
原创 DT大数据梦工厂Spark定制班笔记(004)
Spark Streaming的Exactly-One的事务处理 “Exactly-One的事务处理”的含义: 1)不丢失数据 2)不重复处理数据 Spark Streaming + Kafka是实现只一次性事务处理的最优解决方案! 我们下面详细分析一下过程 Spark Streaming应用的运行架构大致如下: 解读: Spark Streaming应用程序启动,
2016-05-22 14:08:45
407
原创 DT大数据梦工厂Spark定制班笔记(007)
Spark Streaming源码解读之JobScheduler内幕实现和深度思考 接前文Spark Streaming JobSet的提交 JobGenerator.scala (253行) jobScheduler.submitJobSet(JobSet(time, jobs, streamIdToInputInfos)) 我们下面看一下JobScheduler中s
2016-05-22 08:43:57
496
原创 DT大数据梦工厂Spark定制班笔记(005)
所有代码分析均基于Apache Spark1.6.1 Spark Streaming初始化 Spark Streaming初始化的时候,会初始化一系列对下如SparkContext, DStreamGraph和JobScheduler等。 具体代码可以参照StreamingContext.scala (136-183行)。 JobScheduler在初始化过程中,会初始化Job
2016-05-21 23:10:01
458
原创 DT大数据梦工厂Spark 定制班笔记(003)
一 Spark Streaming Job的启动 编写SparkStreaming程序的时候,设置了BatchDuration,Job每隔BatchDuration时间会自动触发,这个功能肯定是SparkStreaming框架提供了一个定时器,时间一到就将编写的程序提交给Spark,并以Spark job的方式运行。 注意:这里的Job不是Spark Core中所指的Job,它只是基于DStr
2016-05-21 15:37:19
518
原创 DT大数据梦工厂Spark 定制班笔记(002)
概述 Spark Streaming是Spark的一个子框架,但我们也可以把它看作是一个在Spark Core应用程序。 SparkStreaming在启动时运行了几个的job,并且job之间相互配合。 Spark core上面有4个流行的框架:SparkSQL、SparkSreaming、MLlib、GraphX;SparkSreaming是第一个出现的框架。 除了流计算,其他的框架
2016-05-21 14:46:22
538
转载 第1课:SparkStreaming 三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析
原博链接如下 http://lqding.blog.51cto.com/9123978/1769346 重点 一个SparkStreaming应用程序会生成的若干个Spark Job。这意味者几个不同的Spark Job可以互相配合,这是我们编写复杂应用的基础。
2016-05-21 14:34:38
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅