
Spark
文章平均质量分 81
wangweislk
大数据金融
展开
-
Flume+Kafka+SparkStreaming整合
目录1.Flume介绍.21.1 Flume数据源以及输出方式.21.2 Flume的核心概念.21.3 Flume结构.21.4 Flume安装测试.31.5 启动flume42.Kafka介绍.42.1 Kafka产生背景.42.2 Kafka部署结构.42.3 Kafka集群架构.42.4 Kafka基本概念.原创 2015-08-05 10:49:07 · 7161 阅读 · 2 评论 -
Spark中使用kyro序列化
序列化在分布式系统中扮演着重要的角色,优化Spark程序时,首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式:Java serialization: 默认的序列化方式。Kryo serialization: 相较于 Java serialization 的方式,速度更快,空间占用更小,但并不支持所有的序列化格式,同时使用的时候需要注册class。spark-sql中默转载 2018-01-08 10:09:33 · 9381 阅读 · 2 评论 -
【异常】SparkStreaming长时间运行出现: Dropping SparkListenerEvent because no remaining room in event queue
问题描述在SparkStreaming任务提交后,经过长时间的运行会在SparkUI的Jobs界面出现Job的执行时间出现几个小时的情况,点进去发现Stage已经处于unkown状态,如下图:查看日志后发现下面ERROR异常:2018-01-06 16:42:03 [ dag-scheduler-event-loop:600497 ] - [ ERROR ] Dropping Sp原创 2018-01-08 09:49:56 · 4385 阅读 · 1 评论 -
【异常】Spark写入HBase时写入DataNode失败:dfs.client.block.write.replace-datanode-on-failure.policy
问题描述:在SparkStreaming长时间写入HBase的时候,会下面的异常问题:2017-12-24 23:20:34 [ SparkListenerBus:540107357 ] - [ ERROR ] Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace原创 2017-12-25 10:46:27 · 6776 阅读 · 0 评论 -
【异常】SparkSession执行action操作时java.lang.ClassNotFoundException: org.codehaus.commons.compiler.Unchecked
org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: org/codehaus/commons/compiler/UncheckedCompileException at org.spark_project.guava.cache.LocalCache$Segment.get(LocalCache.java:2261) at org.spark_project.guava.cach原创 2017-12-01 14:43:39 · 7254 阅读 · 1 评论 -
Spark Kafka(createDirectStream)自己管理offset
1、SparkStreaming中使用Kafka的createDirectStream自己管理offset在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的,并且实现套路都是一样的,我自己根据scala的实现改成了Java的方式,后面又相应的实现。Dir原创 2017-10-25 12:29:24 · 6087 阅读 · 9 评论 -
Spark Bulkload(Java)
1、使用Spark通过Bulkload的方式导数据到Hbase在未用Bulkload写Hbase时,使用RDD进行封装为Tuple2的KVRDD,然后通过saveAsNewAPIHadoopDataset写Hbase,非常慢,400G的数据大概写了2H+还没写完,后面没有办法就考虑使用Bulkload来导入数据。在测试之前网上很多资料都是Scala版本的,并且实现都是单个列来操作,实际原创 2017-10-25 11:31:39 · 3996 阅读 · 1 评论 -
spark源码分析(2)-源码阅读环境准备
在前面介绍wordcount例子时没有对spark源码阅读环境的准备进行说明,本文就主要介绍Spark源码阅读环境的构建1、环境准备操作系统采用Ubuntu14.04(案例采用虚拟机中安装模式,桥接模式可访问外网)下载JDK1.7+,Scala2.10(spark 1.6.3之前采用的是2.10版本,spark2.0之后采用scala2.11版本),SBT,Maven3.3.9下载原创 2017-03-16 11:33:30 · 687 阅读 · 0 评论 -
Spark源码分析-以wordcount为入口进行spark-submit源码分析
1、用wordcount程序进行spark源码环境准备和程序入口1)Standalone模式启动启动Master,start-master.sh输出:/home/weiw/spark-1.6.3-bin-hadoop2.6/sbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip ubuntu原创 2017-03-14 17:57:04 · 1835 阅读 · 0 评论 -
【异常】SparkStreaming抛出Listener SQLListener threw an exception异常
问题描述SparkStreaming在长时间运行时,偶尔会出现下面的异常:2018-01-08 18:42:03 [ SparkListenerBus:32824468 ] - [ ERROR ] Listener SQLListener threw an exceptionjava.lang.IllegalStateException: Attempted to access ga原创 2018-01-09 17:41:14 · 3821 阅读 · 0 评论