
spark
文章平均质量分 84
pucheung
这个作者很懒,什么都没留下…
展开
-
SparkCore杂记二
这篇博客主要讲解Spark中任务shuffle与persistence, 首先来说说shuffle洗牌,学过hadoop的同学应该都了解mapreduce,每一个mapreduce任务都要经过一次shuffle,简单的理解shuffle就是根据key将数据进行重新分布,这个过程会发生文件IO/网络IO,是比较耗性能的一个操作,并且还有可能产生数据倾斜,简单说一下数据倾斜指每个任务中分配的数据不均匀原创 2017-11-08 20:36:59 · 323 阅读 · 0 评论 -
SparkCore杂记一
接触Spark也有一段时间了,最开始一直都是上网看一些博客,自己搭建个虚拟机倒腾,都是一些零散的学习,回头想想还是有必要系统性的学习、理解一遍,本系列博客将会参照spark 官方文档上来一一讲解,但是也不会仅仅只是翻译(翻译也不全面),其中还会加上一些自己的理解、在项目中的一些所见所闻,希望自己能够慢慢成长起来,如果理解有误还请各位指正。 Spark是基于内存计算的分布式处理系统,相对于原创 2017-11-08 18:01:01 · 523 阅读 · 0 评论 -
sparkStreaming+kafka+hbase实战练习一
这个需求是是按照实际工作中的项目改写的一个例子。 业务需求: 1. 实时统计某市银行流水交易总额 2. 实时统计某市银行某地区的流水交易总额 3. 每隔10s统一次每个地区近一年内的交易总额原创 2017-08-05 14:26:03 · 10346 阅读 · 15 评论 -
Spark调优之Shuffle调优
shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-06-13 09:50:43 · 549 阅读 · 0 评论 -
Spark调优之数据倾斜调优
目录(?)[-] 前言1数据倾斜调优 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况 2数据倾斜的解决方案 解决方案一使用Hive ETL预处理数据解决方案二过滤少数导致倾斜的key解决方案三提高shuffle操作的并行度解决方案四两阶段聚合局部聚合全局转载 2017-06-13 09:48:53 · 348 阅读 · 0 评论 -
Spark调优之资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-06-13 09:46:02 · 471 阅读 · 0 评论 -
Spark调优之开发调优
目录(?)[-] 前言开发调优 原则一避免创建重复的RDD原则二尽可能复用同一个RDD 原则三对多次使用的RDD进行持久化 原则四尽量避免使用shuffle类算子原则五使用map-side预聚合的shuffle操作原则六使用高性能的算子原则七广播大变量原则八使用Kryo优化序列化性能原则九优化数据结构 1、前言 在大数据计算领域,转载 2017-06-13 09:41:02 · 407 阅读 · 0 评论 -
spark 内存管理
从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。 Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的内部数据传输。 在Spark 1.6之前,这两部分内存的分配是静态的,转载 2017-06-13 09:36:21 · 521 阅读 · 0 评论 -
Spark 中shuffle原理与调优
shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-06-08 13:56:49 · 484 阅读 · 0 评论 -
Sprak RDD缓存
转载:https://www.iteblog.com/archives/1532.html 我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。 我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据,cache()其实就是调用persist()实现的。persist()支持转载 2017-06-05 18:00:32 · 549 阅读 · 0 评论 -
Spark RDD
转载:http://www.infoq.com/cn/articles/spark-core-rdd/ 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Un转载 2017-06-05 17:53:23 · 394 阅读 · 0 评论 -
Spark 容错机制
转载:http://www.jianshu.com/p/99ebcc7c92d3 引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,转载 2017-06-05 17:44:57 · 482 阅读 · 0 评论 -
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。转载 2016-03-25 17:39:24 · 4803 阅读 · 0 评论 -
Spark入门实战系列--4.Spark运行架构
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver:转载 2016-03-23 17:57:14 · 602 阅读 · 0 评论