
spark
lishuangzhe7047
这个作者很懒,什么都没留下…
展开
-
spark基础
1. Spark概述1.1Spark是什么 Spark是内存计算系统,2009年它出品于UCBerkeley AMPLab伯克利下属实验室,它最早是一片博士论文,论述如何提高map和reduce的效率。后来就针对这篇论文写出了相应的实现。2013年6月捐赠了给Apache,2014年2月成为Apache的顶级项目。 最大节点的集群来自腾讯,8000个节点,单个job最大分别是阿里巴巴原创 2017-07-04 09:23:38 · 880 阅读 · 0 评论 -
Spark 共享变量
Spark中有两种类型的共享变量:一个是累加器accumulator、一个是广播变量broadcast variable。 累加器:用来对信息进行聚合 广播变量:用来高效分发较大的对象一. 累加器累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数,如:统计日志中空行数、统计错误行数等。用法:通过调用JavaSparkContext.accumulator(initivalVa原创 2017-07-13 15:48:44 · 2693 阅读 · 0 评论 -
Scope provided在IDEA中不起作用
短短两个星期中,我已经两次遇到maven的scope问题了。该长点记性了。 compile: This is the default scope, used if none is specified. Compile dependencies are available in all classpaths of a project. Furthermore, those dependenc原创 2017-07-17 10:30:16 · 8397 阅读 · 2 评论