
Spark-RDD
XiaoGuang-Xu
主要从事Hadoop Spark Flink,兴趣爱好:数据挖掘和机器学方向
展开
-
Spark集群部署
Spark集群部署http://blog.youkuaiyun.com/zhxue123/article/details/19199859 Spark集群部署1. 安装环境简介 硬件环境:两台四核cpu、4G内存、500G硬盘的虚拟机。 软件环境:64为Ubuntu12.04 LTS;主机名分别为spark1、spar转载 2015-06-24 15:42:50 · 886 阅读 · 0 评论 -
Spark 性能相关参数配置详解
Spark 性能相关参数配置详解(转载: http://www.open-open.com/lib/view/open1453249796636.html)每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能转载 2017-06-05 18:54:06 · 496 阅读 · 0 评论 -
spark的三种模式的详细运行过程
spark的三种模式的详细运行过程http://blog.youkuaiyun.com/do_what_you_can_do/article/details/53128480一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候),Driver运行在Client;使用SparkS转载 2017-05-19 12:54:46 · 582 阅读 · 0 评论 -
Spark架构与作业执行流程简介
原文连接 http://xiguada.org/spark_architecture/Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的转载 2017-05-19 09:28:44 · 472 阅读 · 0 评论 -
Spark1.5堆内存分配
Spark1.5堆内存分配转载URL : http://www.cnblogs.com/dreamfly2016/p/5720180.html这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只转载 2017-03-27 12:56:48 · 699 阅读 · 0 评论 -
Spark On YARN内存分配
Spark On YARN内存分配原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html 本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那转载 2017-03-27 11:08:08 · 1126 阅读 · 0 评论 -
Spark性能优化:资源调优篇
Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资转载 2017-03-24 13:22:57 · 295 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
spark性能优化:数据倾斜调优原文:http://blog.youkuaiyun.com/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。转载 2017-03-23 15:31:00 · 365 阅读 · 0 评论 -
Spark性能优化:JVM参数调优
Spark性能优化:JVM参数调优原文: http://blog.youkuaiyun.com/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间(包括 Eden 和 Survivor 区域)回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是,当发生Minor GC事件的时候,转载 2017-03-23 09:02:47 · 554 阅读 · 0 评论 -
Spark架构与作业执行流程简介
Spark架构与作业执行流程简介Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的Spark架构与作业执行流程转载 2017-06-08 10:29:37 · 527 阅读 · 0 评论 -
Spark 任务运行原理
调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种转载 2017-06-21 13:58:52 · 299 阅读 · 0 评论 -
Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇转载 2017-08-23 15:10:50 · 294 阅读 · 0 评论 -
Apache Spark 内存管理详解
Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者转载 2017-08-11 17:47:45 · 701 阅读 · 0 评论 -
spark使用KryoRegistrator java代码示例
spark使用KryoRegistrator java代码示例转载引用自:http://www.cnblogs.com/tovin/p/3833985.html最近在使用spark开发过程中发现当数据量很大时,如果cache数据将消耗很多的内存。为了减少内存的消耗,测试了一下 Kryo serialization的使用代码包含三个类,KryoTest、MyRegistr转载 2015-09-09 11:06:33 · 1144 阅读 · 0 评论 -
查看Spark进程的JVM配置及内存使用
查看Spark进程的JVM配置及内存使用如何查看正在运行的Spark进程的JVM配置以及分代的内存使用情况,是线上运行作业常用的监控手段:1、通过ps命令查询PID[plain] view plain copyps -ef | grep 5661 可以根据命令中的特殊字符来定位pid转载 2017-08-01 12:02:17 · 2768 阅读 · 0 评论 -
Spark Core Aggregator
Spark Core Aggregator本文要介绍的是Spark Core中的Aggregator这个类。这个类的用处非常大,为什么这么说呢?我们都知道Spark支持传统的MapReduce模型,并基于这种模型提供了比Hadoop更多更高层次的计算接口。比如Spark Core PairRDD中非常常用的:reduceByKey 提供聚合函数,将k-v对集合将相同key转载 2017-07-29 14:25:59 · 994 阅读 · 0 评论 -
[Spark] - HashPartitioner & RangePartitioner 区别
[Spark] - HashPartitioner & RangePartitioner 区别转载: http://www.cnblogs.com/liuming1992/p/6377540.htmlSpark RDD的宽依赖中存在Shuffle过程,Spark的Shuffle过程同MapReduce,也依赖于Partitioner数据分区器,Partition转载 2017-06-22 10:14:32 · 350 阅读 · 0 评论 -
Spark ON Yarn
转载 2017-05-27 09:22:25 · 367 阅读 · 0 评论 -
Spark源码分析之分区器的作用
转载:http://www.cnblogs.com/xing901022/archive/2017/04/16/6718642.htmlSpark源码分析之分区器的作用最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~先说说数据倾斜数据倾斜是指Spark中的转载 2017-06-22 10:08:21 · 308 阅读 · 0 评论 -
在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??
在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File,Block,Spl转载 2017-03-22 15:09:53 · 1961 阅读 · 0 评论 -
Spark1.6 内存管理模型( Unified Memory Management)分析
Spark 1.6 内存管理模型( Unified Memory Management)分析原文: http://www.jianshu.com/p/b250797b452a2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。前言新的内存模型是转载 2017-03-28 12:43:24 · 422 阅读 · 0 评论 -
spark-submit工具参数说明
执行时需要传入的参数说明Usage: spark-submit [options] [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local转载 2016-12-20 13:45:52 · 830 阅读 · 0 评论 -
查看spark on yarn的日志和程序状态的方法
查看spark on yarn的日志和程序状态的方法转载原文:http://blog.youkuaiyun.com/high2011/article/details/52132646一、在命令行使用命令查看(1)查看日志:yarn logs -applicationId application_1469094096026_26612(2)查看状态:y转载 2017-02-09 17:14:35 · 1505 阅读 · 0 评论 -
Spark on Yarn-cluster与Yarn-client
转载URL: http://www.cnblogs.com/MOBIN/p/5857314.htmlSpark on Yarn-cluster与Yarn-client摘要在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-cluster适用于生产环境,而Yarn-Cluster更适用于交互,调试模式,以下是转载 2017-02-08 11:24:41 · 298 阅读 · 0 评论 -
基于Spark的图计算框架 GraphX 入门介绍
基于Spark的图计算框架 GraphX 入门介绍GraphX原型论文 GraphX是 Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重转载 2016-05-13 15:08:13 · 1396 阅读 · 0 评论 -
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇http://www.open-open.com/lib/view/open1462201592113.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•转载 2016-05-13 14:36:41 · 504 阅读 · 0 评论 -
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇http://www.open-open.com/lib/view/open1463060905365.html#articleHeader13继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾转载 2016-05-13 14:30:08 · 589 阅读 · 0 评论 -
在Spark中自定义Kryo序列化输入输出API
在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继承java.io.Serializable的类系列化,虽然Java系列化非常灵活,但是它的性能不佳。然而我们可以使用Kryo 库来系列化,它相比Java seria转载 2015-09-06 13:02:08 · 1093 阅读 · 0 评论 -
apache spark单机安装教程
apache spark单机安装教程http://www.jdon.com/bigdata/sparkinstall.html转载 2015-07-18 17:29:36 · 685 阅读 · 0 评论 -
Spark On YARN自动调整Executor数量配置 - Dynamic Resource Allocation
Spark On YARN自动调整Executor数量配置 - Dynamic Resource Allocation原文: http://blog.youkuaiyun.com/levy_cui/article/details/51143225Spark 1.5.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能转载 2017-02-23 23:02:06 · 1998 阅读 · 0 评论 -
Spark系列之数据倾斜:数据倾斜之痛
Spark系列之数据倾斜:数据倾斜之痛http://blog.youkuaiyun.com/erfucun/article/details/52492584本博文的主要内容包括:Spark性能真正的杀手数据倾斜多么痛1、关于性能调优首先谈数据倾斜,为什么? (1)因为如果数据倾斜,其他所有的调优都是笑话,因为数据倾斜主要导致程序跑步起来或者运行状态不可用。转载 2017-02-24 22:49:45 · 328 阅读 · 0 评论 -
Spark性能调优
Spark性能调优发表于2015-07-08 13:37| 26398次阅读| 来源程序员电子刊| 3 条评论| 作者程序员电子刊监控工具程序员Spark2015年3月A摘要:通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参转载 2017-03-28 11:45:36 · 706 阅读 · 0 评论 -
Spark On YARN内存分配
Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spa转载 2017-03-24 23:12:01 · 531 阅读 · 0 评论 -
Spark 读取hdfs上的文件 错误:Caused by: java.io.IOException: Filesystem closed的处理
解决办法:第一种方法:源代码:FileSystem fs = FileSystem.get(URI.create(hdfsFilePath), config);改为: FileSystem fs = FileSystem.newInstance(URI.create(hdfsFilePath), config);第二种方法:在hdfs core-site.xml里把fs原创 2017-03-10 14:07:12 · 4424 阅读 · 0 评论 -
spark学习13之RDD的partitions数目获取
spark学习13之RDD的partitions数目获取原文网址: http://blog.youkuaiyun.com/xubo245/article/details/51475506spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的par转载 2017-03-18 16:41:35 · 939 阅读 · 0 评论 -
Spark性能优化-------开发调优
Spark源码解析转载:http://blog.sina.com.cn/s/articlelist_2628346427_2_1.htmlhttp://blog.sina.com.cn/s/blog_9ca9623b0102webd.htmlSpark性能优化-------开发调优转载2016-05-15 12:58:17转载 2017-02-24 23:37:34 · 398 阅读 · 0 评论 -
第五十一讲 Spark优化之“钨丝计划”
第四十八讲 序列化和JVM性能调优http://blog.sina.com.cn/s/blog_9ca9623b0102w8kp.html第四十八讲 序列化和JVM性能调优一:Spark性能调优之序列化1, 之所以进行序列化,最重要的原因是内存空间有限(减少GC的压力,最大化的避免Full GC的产生,因为一旦产生Full GC则整个Task处于停转载 2017-02-24 23:27:41 · 2253 阅读 · 0 评论 -
Spark 性能相关参数配置详解-任务调度篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。转载 2017-02-24 23:13:03 · 361 阅读 · 0 评论 -
Spark参数配置及其性能优化
Spark参数配置转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/一、Spark参数设置二、查看Spark参数设置三、Spark参数分类四、Spark性能相关参数一、Spark参数设置Spark配置参数,一共有三种方法,1、 在程序中,直接设置参数,例如:val conf = n转载 2017-02-24 23:12:25 · 898 阅读 · 0 评论 -
Hadoop,Spark :文件输出压缩
Spark最终结果压缩sparkContext.textFile(inputPath).flatMap(x => { TestLog.readFromString(x)}).saveAsTextFile(outputPath, classOf[GzipCodec])123MapReduce最终结果的压缩FileOutputFormat.setCompressOutput(原创 2017-12-15 17:14:41 · 764 阅读 · 0 评论