自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止

通过前文可知:Spark Streaming为定时器定时生成RDD,对对应某一时间段内的数据进行计算。 沿用此文的案例。 而在某些场景下可能会出现RDD的数据为空的情况。我们还是以SocketInputDStream来看下具体的RDD的创建过程: 当DStream按照依赖回溯至起点...

2016-06-07 23:43:00 192

转载 第17课:Spark Streaming资源动态申请和动态控制消费速率原理剖析

为什么需要动态?Spark默认情况下粗粒度的,先分配好资源再计算。而Spark Streaming有高峰值和低峰值,但是他们需要的资源是不一样的,如果按照高峰值的角度的话,就会有大量的资源浪费。Spark Streaming不断的运行,对资源消耗和管理也是我们要考虑的因素。Spark ...

2016-06-07 23:28:00 140

转载 第17课:Spark Streaming资源动态申请和动态控制消费速率原理剖析

一、Spark Streaming动态资源分配 Spark Streaming为什么要动态分配和申请资源呢? 默认情况下,Spark是先分配好资源,然后在进行计算,也就是粗粒度的资源分配; 粗粒度的好处:资源是提前给分配好的,所以计算任务的时候,直接使用这些资源; 粗粒度的...

2016-05-31 23:28:00 111

转载 第16课:Spark Streaming源码解读之数据清理内幕彻底解密

一:背景 Spark Streaming数据清理的工作无论是在实际开发中,还是自己动手实践中都是会面临的,Spark Streaming中Batch Durations中会不断的产生RDD,这样会不断的有内存对象生成,其中包含元数据和数据本身。由此Spark Streaming本身会有...

2016-05-31 23:25:00 190

转载 第15课:Spark Streaming源码解读之No Receivers彻底思考

通常我们使用kafka direct的方式使用的是没有自定offset的构造函数 val kc = new KafkaCluster(kafkaParams) 完完全全就是kafka的操作了 我们看看val fromOffsets = getFromOffsets(kc, kafkaP...

2016-05-29 19:12:00 110

转载 第14课:Spark Streaming源码解读之State管理之updateStateByKey和

updateStateByKey与mapwithstate 这两个方法在Dstream中是找不到的,他们是通过隐式转换来进行实现的 由此可以看到,最终是通过PairDStreamFunctions来实现这两个方法的。 updateStateByKey newUpdateFu...

2016-05-28 23:46:00 150

转载 第十三课 :Spark Streaming源码解读之Driver容错安全性

· 第一、看ReceiverTracker的容错,主要是ReceiverTracker接收元数据的进入WAL,看ReceiverTracker的addBlock方法,代码如下 def addBlock(receivedBlockInfo: ReceivedBlockInfo): Bo...

2016-05-22 17:58:00 128

转载 第12课:Spark Streaming源码解读之Executor容错安全性

这一课我们将从安全角度来考虑sparkstreaming。因为sparkstreaming会不断的接收数据、不断的产生job、不断的提交job。所以有一个至关重要的问题就是数据安全性。由于sparkstreaming是基于sparkcore的,如果我们可以确保数据安全可靠的话(sparkstr...

2016-05-22 12:05:00 97

转载 第11课:Spark Driver中的ReceiverTracker架构设计

前面已经讲过一些ReceiverTracker的内容,例如ReceiverTracker可以以Driver中具体的算法计算出在具体的executor上启动Receiver。启动Receiver的方法是封装在一个task中运行,这个task是job中唯一的task。实质上讲,ReceiverTr...

2016-05-22 10:32:00 130

转载 第10课:Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

Receiver是通过ReceiverSupervisor的start方法启动的: 首先会调用ReceiverSupervisor的onStart()方法 registeredBlockGenerators是在ReceiverSupervisor实例化时被赋值的:<具体是在父...

2016-05-21 18:16:00 117

转载 第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻

如何启动Receiver? 1. 从Spark Core的角度来看,Receiver的启动Spark Core并不知道,就相当于Linux的内核之上所有的都是应用程序,因此Receiver是通过Job的方式启动的。 2. 一般情况下,只有一个Receiver,但是可以创建不同的数据来源的I...

2016-05-21 11:18:00 166

转载 第6课:Spark Streaming源码解读之Job动态生成和深度思考

在spark stream程序中的一条关键的语句就是:ssc.start() 1,跟踪进入StreamingContext的start 方法,有一句非常关键的语句scheduler.start(),是个JobScheduler(spark stream用来job调度的) 进行job调度的入...

2016-05-21 10:51:00 104

转载 第8课:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

spark stream中的Dstream是对RDD的更高层次抽象,Dstream其实就是RDD的模板,在spark stream中对Dstream的操作最终都会转换为对RDD的操作! 我们来看看Dstream的继承结构,是不是感觉跟RDD的继承结构有些类似呢? <其中值得我们研究的...

2016-05-15 23:50:00 85

转载 第7课 Spark Streaming源码解读之JobScheduler内幕实现

在spark stream程序中的一条关键的语句就是:ssc.start() 1,跟踪进入StreamingContext的start 方法,有一句非常关键的语句scheduler.start(),是个JobScheduler(spark stream用来job调度的) 进行job调度的入...

2016-05-15 11:47:00 143

转载 第5课:Spark Streaming实现思路与模块概述及框架的运行流程

一、基于 SparkCore 做 Spark Streaming 的思路SparkStreaming 是SparkCore的一个应用程序。有以下源码为证:def this(conf: SparkConf, batchDuration: Duration) = { this(S...

2016-05-08 11:20:00 136

转载 Spark Streaming重复消费,多次输出问题剖析与解决方案

1,Exactly once事务 什么事Exactly once事务? 数据仅处理一次并且仅输出一次,这样才是完整的事务处理。 Spark在运行出错时不能保证输出也是事务级别的。在Task执行一半的时候出错了,虽然在语义上做了事务处理,数据仅被处理一次,但是如果是输出到数据库中,那有...

2016-05-07 10:49:00 172

转载 通过案例对透视SparkStreaming运行流程

通过下面的一个简单的例子来理解spark streaming objectOnlineForeachRDD2DB{defmain(args:Array[String]){/**第1步:创建Spark的配置对象SparkConf,设置Spark程序的运行...

2016-05-07 10:38:00 94

转载 第二节:-Spark Streaming与spark core的关系

本期内容:1 解密Spark Streaming运行机制2 解密Spark Streaming架构一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQ...

2016-05-03 19:46:00 715

转载 第一节:通过另类试验透视Spark Streaming本质

一 对Spark Streaming的理解 Spark Streaming是流式计算,当今时代是一个流处理时代,一切数据如果不是流式处理, 或者说和流式处理不相关的话,都是无效的数据。 流式处理才是我们对大数据的初步印象,而不是批处理和数据挖掘,当然Spark强悍的地方在于,他的流式处理...

2016-05-03 19:34:00 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除