
spark
文章平均质量分 66
逍锅锅_
这个作者很懒,什么都没留下…
展开
-
spark数据本地化
转载自:https://www.cnblogs.com/jxhd1/p/6702224.html?utm_source=itdadao&utm_medium=referralSpark数据本地化-->如何达到性能调优的目的1.Spark数据的本地化:移动计算,而不是移动数据2.Spark中的数据本地化级别:TaskSetManager 的 Locality Levels 分为以下五个...转载 2018-04-22 12:57:10 · 451 阅读 · 0 评论 -
IDEA禁止编译整个项目
使用IDEA开发的时候,当对某一个类进行编译运行的时候,默认会对整个project进行编译,此时当项目中的其他类有错误,编译就会不通过,非常麻烦,进行如下设置可以解决这个问题1、在IDEA右上角:File->Setting->Compiler中勾选所有项,并对Java Compiler进行设置,如下:2、Run->Edit Configuration,选中需要编译的模块,去掉ma...原创 2018-04-20 09:06:55 · 9032 阅读 · 1 评论 -
spark aggregateByKey算子
aggregateByKey算子的作用是根据key进行聚合操作,代码均是基于java api,先贴代码:public class AggregateByKeyOperator { public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("Aggregate...原创 2018-04-24 16:47:21 · 473 阅读 · 0 评论 -
spark-streaming 和kafka集成采坑总结,jar包问题
使用spark-streaming 和kafka集成进行wordcount,spark和kafka版本分别为:spark-1.6.0和kafka_2.10-0.8.2.2,开发时只需要spark-assembly-1.6.0-hadoop2.6.0.jar包和spark-streaming-kafka_2.10-1.6.0.jar包就够了,但是当将最终代码打成jar包提交spark集群运行时,会报...原创 2018-05-09 14:42:34 · 5982 阅读 · 1 评论 -
kafka和flume集成
使用flume+kafka+sparkstreaming进行日志实时处理,flume作为kafka的producer,sparkstreaming作为kafka的消费者。flume只有1.6.0和以上的版才可以和kafka集成,1.6.0之前的版本没有提供kafka sink这个功能,在kafka中创建一个flumeTopic topic,然后使用flume 监控五个日志文件,五个文件实时更新,f...原创 2018-05-11 09:31:17 · 481 阅读 · 0 评论 -
(spark问题一)scala开发spark遇到的奇怪bug
今天使用spark-mllib调用逻辑回归,运行代码报错如下:Error:scalac: Error: object VolatileFloatRef does not have a member createscala.reflect.internal.FatalError: object VolatileFloatRef does not have a member create ...原创 2018-07-22 21:56:35 · 4039 阅读 · 1 评论 -
在kerberos化hadoop集群提交spark任务
在kerberos集群上提交 spark任务复杂性远远高于非kerberos集群,提交spark任务分为两种模式:yarn-client和yarn-cluster模式,先简单说明一下这两种模式。1.yarn-client模式使用yarn-client模式提交,提交任务的client节点作为spark driver,executor在yarn container中启动,运行日志和状态信息都可以在...原创 2019-04-30 20:35:37 · 4927 阅读 · 4 评论 -
spark structure streaming作业没有写checkpoint引起的灾难
使用sturcture streaming统计kafka流数据的一些指标,将查询结果输出到mysql,由于中间没有数据落盘,所以就没有写checkpoint,因为心里想着如果程序宕掉其实也不需要保存offset,结果在本地local模式测试没有任何问题,但是提交到集群使用yarn调度就出现了问题,报错如下:Caused by: org.apache.hadoop.ipc.RemoteExcep...原创 2019-07-09 12:56:43 · 784 阅读 · 1 评论 -
spark lz4包冲突
使用spark读取kafka分析的时候,kafka 的startingOffsets如果设置为earliest,就会报错:java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V使用mvn -Dverbose dependency:tre...原创 2019-07-15 16:44:47 · 716 阅读 · 0 评论