- 博客(125)
- 收藏
- 关注
原创 第147课:Spark面试经典系列之Shuffle的性能调优问题
Spark面试经典系列之Shuffle的性能调优问题1、Shuffle原理和运行机制回顾 2、Shuffle性能调优上面的流程中: 性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。 性能问题2:Reducer端的Business Logic运行的空间,如果说空间分配不够,业务逻辑运行的时候被迫把数据Spill到磁
2017-05-05 16:22:19
1371
原创 第146课:Spark面试经典系列之Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题
Spark面试经典系列之Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on Yarn cluster mode: 此时有可能会报OOM的错误,具体来说: 由于Client模式下一定没有出现OOM,而在Cluster
2017-05-05 16:20:09
1307
原创 第145课:Spark面试经典系列之Yarn生产环境下资源不足问题和网络的经典问题详解
Spark面试经典系列之Yarn生产环境下资源不足问题和网络的经典问题详解1、Yarn资源不足无法提交Spark的问题 2、Yarn-Client下网络流量的问题ResourceManager会接收你的提交请求吗?Yarn一般把自己的资源分成不同的类型,我们接收的时候会专门提交到分配给Spark那一组资源,例如说此时资源信息如下:Memory 1000G,Cores 800个,此时你要提交的Spa
2017-05-05 16:19:03
1234
原创 第144课:Spark面试经典系列之NULL值问题及序列化错误
Spark面试经典系列之NULL值问题及序列化错误1、NULL值问题如何解决? 2、序列化错误如何解决?一些场景下,我们并不需要返回具体的值,这个时候往往我们会返回NULL值,但是有时候你可能在下一步的RDD操作中要求RDD的元素不能够是NULL值,如果是的话就会抛出异常,此时该如何处理呢?这个时候我们可以在继续返回NULL值的基础上,在下一步要使用的时候通过Option进行模式匹配(Some和N
2017-05-05 16:18:05
900
原创 第143课:Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决
Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决1、Reduce端的OOM如何解决? 2、Shuffle file not found如何解决?OOM产生的原因:数据对象太多。通过减少减小Cache层大小,从而减少OOM 代价:从Mapper端拉去数据的次数增多,性能下降如果发生Reducer端的OOM,可以减少每个Reduce Task的缓存的
2017-05-05 16:16:59
766
原创 第142课:Spark面试经典系列之Cache和Checkpoint
Spark面试经典系列之Cache和Checkpoint1、Cache 2、CheckpointCache:当我们想复用数据的时候一般都会进行Cache,在实际生产环境下复用RDD是最重要的性能优化手段之一(当然,如果能够实现优良的RDD的复用,一定是建立在同时驾驭业务和技术的基础之上的)。所谓的Cache其实是把数据经过第一次计算放在了BlockManager中。Checkpoint:相当于Ca
2017-05-05 16:15:38
534
原创 第135-141课:Spark面试经典系列之数据倾斜
Spark面试经典系列之数据倾斜Spark面试经典系列之数据倾斜:数据倾斜之痛1、Spark性能真正的杀手 2、数据倾斜之痛数据倾斜两大直接致命性的后果: 1、OOM,一般OOM都是由于数据倾斜所致 2、速度变慢数据倾斜基本形态特征:个别Task处理大量数据数据倾斜的定位: 1、Web UI,可以清晰看见哪些Task运行的数据量大小 2、Log,Log的一个好处是可以清晰的告诉是哪一行出现
2017-05-05 16:14:45
2460
原创 第126-134课:Spark Streaming源码经典解读
Spark Streaming源码经典解读一:基于DStream的DStreamGraph源码内幕1、DStream下transformation和action解密 2、DStreamGraph内幕源码解密二:Spark Streaming生成RDD并执行Job源码内幕解密1、DStream产生RDD的案例实战演示 2、DStream作为RDD模板的原理机制 3、常见的DStream生产RDD
2017-05-05 16:06:08
681
原创 第125课:Spark Streaming反思和启示:一切皆是流式处理及Spakr Streaming架构和运行机制
一切皆是流式处理及Spakr Streaming架构和运行机制1、一切皆是流式处理的新大数据时代 2、Spark Streaming架构和运行机制数据要流起来。 批处理是流处理的特殊情况
2017-05-05 16:01:40
535
原创 第124课:Spark Streaming性能优化:通过Spark Streaming进行设备日志监控报警及性能优化
通过Spark Streaming进行设备日志监控报警及性能优化1、Spark Streaming进行设备监控及报警 2、Spark Streaming进行设备监控性能优化ELK Stack:一整套开源的日志处理平台解决方案,可以集日志的采集、检索、可视化于一身,真正的处理现在的首选是Spark Streaming,中间件为Kafka用于做ELK和Spark Streaming之间的适配,关键的地
2017-05-05 16:00:58
1272
原创 第123课:Spark Streaming性能优化:通过Spark Streaming发现botnet及性能优化
通过Spark Streaming发现botnet及性能优化1、Spark Streaming+Machine Learning 2、Spark Streaming发现Botnet(僵尸网络) 3、性能优化数据突然变大使用反压机制(本课时长13min)
2017-05-05 15:56:18
451
原创 第122课:Spark Streaming性能优化:Spark Streaming处理分布式拒绝服务器案例及性能优化
Spark Streaming处理分布式拒绝服务器案例及性能优化1、Spark Streaming处理DDos 2、Spark Streaming处理DDos性能优化反DDos:Pull到Kafka的数据会进行统计(例如基于IP的统计),然后进行分组,然后可能和历史数据集进行匹配,同时会进行流量感知和过滤等。常见的反DDos有标签和异常检测等方式。在处理DDos攻击的时候,肯定会使用到Window
2017-05-05 15:51:44
476
原创 第121课:Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试
通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试1、Spark Streaming处理摄像头图像 2、Spark Streaming新的性能评估方式 3、Spark Streaming性能调优参数的使用对于图像处理,数据肯定是在RDD中的,Receiver接收到数据后放在缓存中,然后按照特定的时间周期通过BlockManager存储数据,对于图像处理而言,数据肯定是有
2017-05-05 15:48:30
1196
1
原创 大数据IMF传奇行动绝密课程第120课:Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中
Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中1、生产环境下End-to-End的流处理程序 2、Spark Streaming安全高效写入HBaseSpark Streaming插入HBase之所以高效的原因? 在End to End的流处理程序中为何选择把流处理的结果存放在HBase? 向HBase中存储数据的过程如下:对于
2017-05-05 15:32:13
862
原创 大数据IMF传奇行动绝密课程第119课:Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变1、数据峰值的巨大影响 2、Spark的Backpressure(反压)内幕Backpressure根据上一个job的统计信息(如delay等),通过自己的算法,来决定下一个Batch Interval的接收速度 如何限制接收速度 反压机制在哪里会有?Driver jobScheduler启动RateControlle
2017-05-05 15:27:05
443
原创 大数据IMF传奇行动绝密课程第118课:Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源
Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源1、Spark Streaming资源使用问题解析 2、如何获得足够和持续稳定的资源?Hadoop2.6.x推出Label based scheduling。Yarn的调度策略中,可以有不同的队列,可用资源可以用标签标记。提交给这个队列的应用程序只能使用这个队列所拥有的标签的计算资源。
2017-05-05 15:25:44
435
原创 大数据IMF传奇行动绝密课程第117课:Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性
Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性Kafka:topic下面有Message,用线程池并发读取数据 调大这两个配置,增加稳定性。由于GC过程可能会很慢,所以适当增加参数值 zookeeper.connection.timeout.ms -> 10000 连接的时候 zookeeper.session.timeout
2017-05-05 15:24:45
497
原创 大数据IMF传奇行动绝密课程第116课:Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算
Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算Spark Streaming的处理模式是按照Batch Duration进行Micro Batch Computation的,且如果上一批数据没有处理完的话是不会处理下一批数据的!这会导致几个结果: 第一:如果前面一个Batch数据量突然间特别大的话,就会导致计算的高度延迟,使得当前的Batch不能够得到及时
2017-05-05 15:23:50
781
原创 大数据IMF传奇行动绝密课程第115课:超大规模spark性能优化本质思考
超大规模spark性能优化本质思考在没有数据倾斜的情况下,加大内存和Cores个数是最有效的提升性能的方法 128G内存,16个Core 使用fastutils减少内存使用
2017-05-05 11:51:20
428
原创 大数据IMF传奇行动绝密课程第104-114课:Spark Streaming电商广告点击综合案例
Spark Streaming电商广告点击综合案例需求分析和技术架构广告点击系统实时分析 广告来自于广告或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过ajax或Socket往后台发送日志数据,在这里我们是要做基于SparkStreaming做实时在线统计。那么数据就需要放进消息系统(Kafka)中,我们的Spark Streaming应用程序就会去Kafka中Pu
2017-05-05 11:33:40
2390
原创 大数据IMF传奇行动绝密课程第103课:动手实战Spark Streaming Broadcast、Accumulator实现在线黑名单过滤和计数
动手实战Spark Streaming Broadcast、Accumulator实现在线黑名单过滤和计数1、自定义Receiver分析 2、自定义Receiver实战package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import java.util.List;import org.apache.hado
2017-04-03 22:16:00
552
原创 大数据IMF传奇行动绝密课程第102课:动手实战Spark Streaming自定义Receiver并进行调试和测试
动手实战Spark Streaming自定义Receiver并进行调试和测试1、自定义Receiver分析 2、自定义Receiver实战 http://spark.apache.org/docs/latest/streaming-custom-receivers.html
2017-04-03 22:12:02
505
原创 大数据IMF传奇行动绝密课程第100-101课:使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例
使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例1、项目分析流程图 2、项目代码实战Flume sink到Kafka需要一个jar包支持 https://github.com/beyondj2ee/flumeng-kafka-plugin/tree/master/flumeng-kafka-plugin编辑flume-conf.properties
2017-04-03 22:07:49
2832
原创 大数据IMF传奇行动绝密课程第98-99课:使用Spark Streaming实战对论坛网站动态行为的多维度分析
使用Spark Streaming实战对论坛网站动态行为的多维度分析1、技术分析 2、实现实战package com.tom.spark.SparkApps.sparkstreaming;import java.io.PrintWriter;import java.util.HashMap;import java.util.HashSet;import java.util.Map;impo
2017-04-03 21:50:49
906
原创 大数据IMF传奇行动绝密课程第97课:使用SparkStreaming+SparkSQL实现在线动态计算出特定时间窗口
使用SparkStreaming+SparkSQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名1、Streaming+SQL技术实现解析 2、Streaming+SQL实现实战启动hive metastorehive --service metastore &package com.tom.spark.sparkstreamingimport org.apache.spark.{
2017-04-03 21:05:50
691
原创 大数据IMF传奇行动绝密课程第96课:通过SparkStreaming的foreachRDD把处理后的数据写入外部存储系统中
通过SparkStreaming的foreachRDD把处理后的数据写入外部存储系统中1、技术实现解析 2、实现实战package com.tom.spark.sparkstreamingimport org.apache.spark.{SparkConf, rdd}import org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.
2017-04-03 20:30:05
565
原创 大数据IMF传奇行动绝密课程第95课:通过SparkStreaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战
通过SparkStreaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战1、在线热点搜索词实现解析 2、SparkStreaming实现在线热点搜索词实战package com.tom.spark.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Durat
2017-04-03 20:28:02
625
原创 大数据IMF传奇行动绝密课程第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战
SparkStreaming实现广告计费系统中在线黑名单过滤实战1、在线广告黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤实战package com.tom.spark.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Durations, Streaming
2017-04-03 20:24:27
762
原创 大数据IMF传奇行动绝密课程第93课:SparkStreaming updateStateByKey案例实战和内置源码解密
SparkStreaming updateStateByKey案例实战和内置源码解密1、sparkStreaming中的updateStateByKey案例实战 2、sparkStreaming中的updateStateByKey源码解密package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import ja
2017-04-03 20:20:20
486
原创 大数据IMF传奇行动绝密课程第92课:SparkStreaming中Transformations和状态管理解密
SparkStreaming中Transformations和状态管理解密1、sparkStreaming中的Transformations 2、sparkStreaming中的状态管理详见开发文档~~ http://spark.apache.org/docs/latest/streaming-programming-guide.html
2017-04-03 20:17:35
326
原创 大数据IMF传奇行动绝密课程第91课:SparkStreaming基于Kafka Direct案例实战和内幕源码解密
SparkStreaming基于Kafka Direct案例实战和内幕源码解密1、sparkStreaming on Kafka Direct工作原理机制 2、sparkStreaming on Kafka Direct案例实战 3、sparkStreaming on Kafka Direct源码解析package com.tom.spark.SparkApps.sparkstreaming;i
2017-04-03 19:58:58
722
原创 大数据IMF传奇行动绝密课程第90课:SparkStreaming基于Kafka Receiver案例实战和内幕源码解密
SparkStreaming基于Kafka Receiver案例实战和内幕源码解密1、sparkStreaming on Kafka Receiver工作原理机制 2、sparkStreaming on Kafka Receiver案例实战 3、sparkStreaming on Kafka Receiver源码解析package com.tom.spark.SparkApps.sparkstr
2017-04-03 19:51:55
652
原创 大数据IMF传奇行动绝密课程第89课:SparkStreaming On Kafka之kafka解析和安装实战
SparkStreaming On Kafka之kafka解析和安装实战1、Kafka解析 2、Kafka安装实战 Kafka元数据被ZooKeeper管理 Kafka是Scala写的,所以需要安装Scala、Java将slf4j-nop-1.7.6.jar拷贝到kafka的libs目录下,slf4j用于nohup 配置集群中每台机器: 1、配置.bashrcexport KAFKA_HO
2017-04-03 19:47:12
653
原创 大数据IMF传奇行动绝密课程第88课:SparkStreaming从Flume Poll数据案例实战和内幕源码解密
SparkStreaming从Flume Poll数据案例实战和内幕源码解密1、Spark Steaming on polling from Flume实战 2、Spark Steaming on polling from Flume源码package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org
2017-04-03 19:40:46
475
原创 大数据IMF传奇行动绝密课程第87课:Flume推送数据到Spark Streaming案例实战和内幕源码解密
Flume推送数据到Spark Streaming案例实战和内幕源码解密1、Flume on HDFS案例回顾 2、Flume推送数据到Spark Streaming实战 3、原理绘图剖析 /** * */package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org.apache.sp
2017-04-03 19:32:41
474
原创 大数据IMF传奇行动绝密课程第86课:SparkStreaming数据源Flume实际案例分享
SparkStreaming数据源Flume实际案例分享1、Flume简要介绍 2、Spark Streaming on Flume案例介绍
2017-04-03 19:00:42
736
原创 大数据IMF传奇行动绝密课程第85课:基于HDFS的SparkStreaming案例实战和内幕源码解密
基于HDFS的SparkStreaming案例实战和内幕源码解密1、Spark Streaming on HDFS实战 2、Spark Streaming on HDFS源码解密hadoop dfs -mkdir /library/SparkStreaming/CheckPoint_Dataremember 函数,把数据保存久一点ackage com.tom.spark.SparkApps.sp
2017-04-03 17:40:58
477
原创 大数据IMF传奇行动绝密课程第84课:图解StreamingContext、DStream、Receiver并结合源码分析
图解StreamingContext、DStream、Receiver并结合源码分析1、原理流程图 2、源码初探
2017-04-03 09:44:40
516
原创 大数据IMF传奇行动绝密课程第83课:透彻讲解使用Scala和Java两种方式实战Spark Streaming开发
透彻讲解使用Scala和Java两种方式实战Spark Streaming开发/** * java 代码 */ package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.f
2017-03-16 14:59:52
767
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人