
大数据
xueba207
这个作者很懒,什么都没留下…
展开
-
cloudera-scm-agent 启动失败 'Unable to create the pidfile'
问题安装cloudera namager时,cloudera-scm-server可以正常启动,cloudera-scm-agent启动失败.原创 2016-05-11 10:31:44 · 8024 阅读 · 0 评论 -
减少spark job jar包的大小
利用java写spark job,工程结构为maven,每次生成的jar都比较大。 spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。 本文介绍jar包瘦身方法: 观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。首先,缓存spark-assembly 包到hdfs,方法见本文。然后, 修改代码工程的pom文件,将spa原创 2016-05-06 18:13:29 · 3024 阅读 · 0 评论 -
zeppelin spark interpreter异常 com.fasterxml.jackson.databind.JsonMappingException
异常部署zeppelin时,使用spark interpreter报错: com.fasterxml.jackson.databind.JsonMappingException: Could not find creator property with name ‘id’ (in class org.apache.spark.rdd.RDDOperationScope)原因jackson版本冲突,原创 2016-08-19 11:52:53 · 2451 阅读 · 0 评论 -
Spark 广播变量(broadcast)更新方法
Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), arr(2).toInt)}).distinctvar mapBC = sc.broa原创 2017-06-05 11:19:15 · 11822 阅读 · 0 评论