
Spark
文章平均质量分 84
匿名啊啊啊
这个作者很懒,什么都没留下…
展开
-
Spark学习(三)SparkRDD及Stage的划分
1、RDD的概述1.1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2、RDD的...原创 2018-04-22 19:06:57 · 3915 阅读 · 1 评论 -
Spark学习(十一)Apache SparkCore 内存管理详解
https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html概述Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文...转载 2018-04-26 21:55:02 · 268 阅读 · 0 评论 -
Spark学习(十)SparkCore的调优之shuffle调优
Spark性能优化指南——基础篇Spark性能优化指南——高级篇1、调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个S...转载 2018-04-26 21:35:44 · 245 阅读 · 0 评论 -
Spark学习之路 (十二)Spark分区
1、分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。2、为什么要进行分区数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在i...原创 2018-05-03 22:41:08 · 550 阅读 · 0 评论 -
Spark学习(九)SparkCore的调优之数据倾斜调优
Spark性能优化指南——高级篇Spark性能优化指南——基础篇数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个ta...转载 2018-04-25 20:38:10 · 290 阅读 · 0 评论 -
Spark学习(八)Spark的运行流程
1、Spark中的基本概念名词解释:Application指的是我们开发的spark应用程序。我们开发好代码以后去提交任务这就是一个applicationDeploymodeClient:在哪儿提交代码哪台服务器就是Driver cluster:会把Dirver发送到集群的不同机器上。Executor我们的任务是需要运行在Executor里面的Job我们提交的一个application里面可以有多...原创 2018-04-25 15:12:19 · 269 阅读 · 0 评论 -
Spark学习(七)SparkCore的调优之开发调优
取自:Spark性能优化指南——基础篇Spark性能优化指南——高级篇前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使...转载 2018-04-25 13:03:25 · 244 阅读 · 0 评论 -
Spark学习(六)高可用集群配置HistoryServer
为了方便管理日志,记录Spark程序运行结果,需要进行historyServer配置1、常规单节点配置第一步: cp spark-defaults.conf.template spark-defaults.conf 在文件里面添加如下内容: spark.eventLog.enabled true spark.eventLog.dir ...原创 2018-04-25 13:00:55 · 694 阅读 · 0 评论 -
Spark学习(二)Spark高可用集群搭建
1、下载Spark安装包官网网址:http://spark.apache.org/downloads.html2、Spark安装过程2.1、上传并解压缩[potter@potter2 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/2.2、修改配置文件(1)进入配置文件所在目录/home/potter/apps/spark-2.3.0-bin...原创 2018-04-20 23:32:54 · 2128 阅读 · 0 评论 -
Spark学习(五)内置Transformations函数合集
用Scala编写:import org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}object TransformationOperator { /** * map算子 * 遍历rdd中的每一个元素,可以对元素进行操...原创 2018-04-24 19:12:56 · 296 阅读 · 0 评论 -
Spark学习(一)Spark及其生态圈简介
1、什么是SparkApache Spark™是用于大规模数据处理的统一分析引擎。Spark的通用性:2、Spark的四大特性(1)Speed:高效性运行速度快 Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。 (2)Ease of Use:易用性...原创 2018-04-19 22:11:46 · 867 阅读 · 0 评论 -
Spark学习(四)Spark的广播变量和累加器
1、概述在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变(broadcast variable)和...原创 2018-04-22 20:28:34 · 678 阅读 · 0 评论 -
大文件切分小文件
用户日志数量:5千万,用户数目5000需求:按照用户id将文件拆分成5000个小文件,文件已用户id作为文件名称scala代码如下:可以快速得出结果package cn.cslc.sdwd.log_AH import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.log4j.{Level...原创 2018-06-23 16:46:38 · 2153 阅读 · 0 评论