
spark
rolin-刘瑞
技术GEEK
展开
-
Apache spark简介
http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 ==目标Scope(解决什么问题)在大规模的特定数据集上的迭代运算或重复查询检索官方定义aMapReduce-like cluster computing framework designed for low-latency it转载 2014-06-12 22:36:00 · 7536 阅读 · 0 评论 -
hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapRed...转载 2018-05-22 23:13:16 · 7393 阅读 · 1 评论 -
Spark Streaming重复消费,多次输出问题剖析与解决方案
1,Exactly once 事务什么事Exactly once 事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。Spark在运行出错时不能保证输出也是事务级别的。在Task执行一半的时候出错了,虽然在语义上做了事务处理,数据仅被处理一次,但是如果是输出到数据库中,那有空能将结果多次保存到数据库中。Spark在任务失败时会进行重试,这样会导致结果多次保存到数据库中。如下图,当运行在Ex...转载 2018-05-15 11:13:14 · 8887 阅读 · 0 评论 -
Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。 首先我们来看看我的环境:3台DataNode,2台NameNode,每台机器20G内存,24核数据都是lzo格式的,共336个文件,338.6 G无其他任务执行如果想及时了解Spark、Hadoop或者Hbase转载 2017-12-03 11:02:57 · 9142 阅读 · 1 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2017-11-11 23:45:06 · 6218 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2017-11-11 23:40:26 · 6054 阅读 · 0 评论 -
利用Kryo序列化库是你提升Spark性能要做的第一件事
本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题:Often, choose a serialization type will be the first thing you should tune to optimize a Spark application. 在Spark的架构中,在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化操作,序列转载 2017-11-07 15:20:25 · 8344 阅读 · 0 评论 -
Spark的位置优先: TaskSetManager 的有效 Locality Levels
based on spark-1.5.1 standalone mode在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks 的一些信息,其中 Locality Level 一栏的值可以有 PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY 几个值。这转载 2017-03-30 14:43:59 · 8005 阅读 · 2 评论 -
详细探究Spark的shuffle实现和hadoop mapreduce shuffle原理
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2017-02-24 15:01:57 · 6671 阅读 · 0 评论 -
Spark学习笔记之-Spark on yarn(External Shuffle Service)
Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle 数据,给其他Executor提供shuffle数据。 当Executor进程任务过重,导致GC而不能为其 他Executor提供shuffle数据时,会影响任务运行。 这里实际上是利用External Shuffle Service 来提升性能,Extern转载 2017-02-23 18:14:30 · 9583 阅读 · 0 评论 -
spark on yarn 基本用法
两种模式:cluster modeclient mode启动shell:bin/spark-shell --master yarn-clientbin/spark-shell --master yarn-cluster - 不支持例子:提交Spark Job方式:./bin/spark-submit --class org.apache.spark.examples.SparkP...原创 2017-02-21 16:07:08 · 7868 阅读 · 0 评论 -
基于haproxy 实现spark hiveserver2 ha
1.hiveserver安装如果是hiveserver是基于hive的 需要拷贝hive-site.xml文件到spark/conf目录下 hs启动命令: /home/dc/datacenter/soft/spark/spark-1.6.1-bin-2.6.0/sbin/start-thriftserver.sh --deploy-mode client --hiveconf...原创 2016-08-12 23:14:58 · 9798 阅读 · 0 评论 -
spark程序异常:Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs
spark程序异常:Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs原创 2014-11-23 22:52:44 · 13406 阅读 · 0 评论 -
java -jar运行spark程序找不到自己写的类的错误解决
spark程序异常解决原创 2014-11-23 22:35:58 · 14589 阅读 · 0 评论 -
spark安装,单节点spark,spark standalone
今天来说说如何部署分布式的 Spark 集群,在本篇文章中,我主要是介绍如何部署Standalone模式。 一、修改配置文件1、将$SPARK_HOME/conf/spark-env.sh.template文件复制一份到spark-env.sh,并作以下修改(可选):export SCALA_HOME=/export1/spark/scala-2.10.3export H转载 2014-08-28 22:21:44 · 8662 阅读 · 0 评论 -
伪分布式系列 - 第三篇 - spark-2.4.3环境搭建on hadoop3.2.0
目录基础环境搭建spark配置spark启动测试基础环境搭建spark配置spark启动测试原创 2019-07-26 23:02:46 · 7408 阅读 · 1 评论