
Spark
文章平均质量分 81
江南小白龙
这个作者很懒,什么都没留下…
展开
-
【Spark系列1】Windows下Spark单机版的安装
安装Windows单机版spark:预编译http://www.nikest.com/web/jswd/2015/0310/137975.html自己编译http://thinkerou.com/2015-05/How-to-Build-Spark-on-Windows/下载安装scala:http://blog.youkuaiyun.com/chszs/article/details/7原创 2015-10-30 09:52:51 · 1638 阅读 · 0 评论 -
【Spark系列2】reduceByKey和groupByKey区别与用法
在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为在接下来原创 2015-11-21 15:47:00 · 80602 阅读 · 3 评论 -
Intellij搭建spark开发环境
今天在windows上搭建了IntelliJ。主要参考的是:http://blog.youkuaiyun.com/pirage/article/details/50216197(1)首先,安装JDK:http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html需要注意的是:原创 2016-02-05 10:39:06 · 653 阅读 · 0 评论 -
【Spark系列4】Spark的shuffle原理
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。 在Spar转载 2017-08-29 13:08:24 · 1128 阅读 · 0 评论 -
【Spark系列5】cache和persist的区别
通过观察RDD.Scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) { throw new UnsupportedOp转载 2017-08-29 15:14:44 · 958 阅读 · 0 评论 -
【Spark系列6】spark submit提交任务
根据spark官网,在提交任务的时候指定–jars,用逗号分开。这样做的缺点是每次都要指定jar包,如果jar包少的话可以这么做,但是如果多的话会很麻烦。spark-submit --master yarn-client --executor-memory 3g --executor-cores 2 --num-executors 2 --jars ***.jar,***.jar(你的jar包转载 2017-08-29 19:05:11 · 676 阅读 · 0 评论 -
【Spark系列7】Spark如何读写hive
hive数据表建立可以在hive上建立,或者使用hiveContext.sql(“create table ....")1) 写入hive表case class Person(name:String,col1:Int,col2:String)val sc = new org.apache.spark.SparkContext val hiveContext = new org.a转载 2017-09-24 14:48:37 · 2893 阅读 · 0 评论 -
【Spark系列8】Spark Shuffle FetchFailedException报错解决方案
前半部分来源:http://blog.youkuaiyun.com/lsshlsw/article/details/51213610后半部分是我的优化方案供大家参考。+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++SparkSQL shuffle操作带来的报错o原创 2017-09-24 15:25:21 · 22255 阅读 · 0 评论 -
【Spark系列3】Spark优化
遇到的问题数据倾斜问题数据倾斜后果很严重:OOM、速度慢,不能控制时间数据倾斜的定位:1、Web UI 可以清晰看见哪些个task运行的数据量大小2、log 日志 可以清晰的告诉是哪一行出现问题OOM 在哪个stage出现了数据倾斜,一般在shuffle过程3、代码走读,重点看join groupbykey reducebykey等关键代码;4、对数据特征分布转载 2017-08-29 13:03:00 · 1207 阅读 · 0 评论