
spark
文章平均质量分 72
时间的快慢
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer
这个问题一般都是pom文件的jar包依赖不对,pom文件依赖如下我的hadoop用的是hadoop2.6的 org.apache.hadoop hadoop-common 2.7.1 org.apache.hadoop hadoop-hdfs 2.6.0原创 2016-09-29 15:35:36 · 3897 阅读 · 0 评论 -
CDH安装配置zeppelin-0.7.3以及配置spark查询hive表
1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env原创 2018-01-17 11:05:23 · 3727 阅读 · 1 评论 -
sparkstreaming的实时黑名单过滤太慢
官网推荐这种方法进行过滤,但是这种方法其实有很大弊端,left out join如果黑名单数据量很大就会很伤,其实中不好。object TransformBlackList { def main(args: Array[String]): Unit = { //获取streamingContext val sc=new StreamingContext(new SparkCo...原创 2018-05-25 17:22:19 · 1056 阅读 · 0 评论