
Spark
young-ming
路漫漫其修远兮 吾将上下而求索
个人QQ:284407890
个人github:https://github.com/xmingyang
展开
-
spark Compression codec com.hadoop.compression.lzo.LzoCodec not found
spark shell出现错误Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found. at org.apache.hadoop.io.compress.CompressionCodecFactory.getCo原创 2015-11-05 10:27:35 · 6156 阅读 · 1 评论 -
spark优化总结
1、注意join的使用,如果有较小的表可考虑使用广播的方式实现mapjoin,类似MR/HIVE。广播变量是一个executor一份副本2、注意数据倾斜的问题,这个问题在分布式shuffle操作时都有可能出现,常见几个场景:join操作空值量很多时使用随机值 cout(distinct)操作,拆分成group by 再count 对数据采样抽取出倾斜的key,单独处理,最后做union...原创 2018-08-27 12:08:23 · 628 阅读 · 0 评论 -
Spark/Hive采样
Hive数据块取样hive数据块采样SELECT * FROM T TABLESAMPLE (50 PERCENT);SELECT * FROM T TABLESAMPLE (30M);分桶表取样SELECT *FROM T TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand());SELECT * FROM T TABLESAMPLE(BUCK...原创 2018-08-28 11:18:42 · 1396 阅读 · 0 评论 -
spark-Streaming direct和receiver方式读取的区别
区别:Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实...转载 2018-07-15 19:24:41 · 2507 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践
导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希望对大...转载 2018-07-15 16:42:35 · 3657 阅读 · 1 评论 -
flink和spark Streaming中的Back Pressure
Spark Streaming的back pressure在讲flink的back pressure之前,我们先讲讲Spark Streaming的back pressure。Spark Streaming的back pressure出现的原因呢,我想大家应该都知道,是为了应对短期数据尖峰。Spark Streaming的back pressure是从spark 1.5以后引入的,在之前呢,只...转载 2018-07-24 18:58:14 · 439 阅读 · 0 评论 -
Spark Streaming Backpressure分析
1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Stream转载 2017-07-31 11:36:03 · 301 阅读 · 0 评论 -
spark多路输出
实现的功能:按不同的key写到不同的文件名其中data为kv型的Rdd data.partitionBy(new HashPartitioner(4)).saveAsHadoopFile(outputPath, classOf[String], classOf[String], classOf[RDDMultipleTextOutputFormat])R原创 2017-03-02 18:10:11 · 1643 阅读 · 0 评论 -
SparkSql搭建
Spark on yarn已搭建好,开始使用SparkSql,做如下工作原创 2015-11-19 20:19:02 · 1055 阅读 · 0 评论 -
tachyon搭建记录
目前官网下载的tachyon tar包只支持hadoop-2.2,如果自己的hadoop集群不是这个版本,会出现如下错误 2015-11-01 21:29:09,446 INFO (ClientBase.java:connect) - Tachyon client (version ${project.version}) is trying to connect with原创 2015-11-06 16:00:16 · 878 阅读 · 0 评论 -
pyspark ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library
使用pyspark出现问题:14/10/24 14:51:40 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl libraryjava.lang.UnsatisfiedLinkError: no gplcompression in java.library.pathcp /usr/lib/hadoop/l原创 2015-10-21 16:34:06 · 2338 阅读 · 0 评论 -
spark streaming中的广播变量应用
1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量,能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初...转载 2018-09-03 11:06:51 · 3170 阅读 · 2 评论