
Spark
江江梁
睡觉……
展开
-
Spark 中Accumulators 和 Broadcast Variables的使用
**Spark 中Accumulators 和 Broadcast Variables的使用** 一:Accumulators 重点说一下Accumulators 的使用,首先先描述下的经历过程,我遇到这样一个问题,需要获取RDD中某个字段的值,放入HashSet中,为后续操作做准备。但是会发现在RDD的foreach中直接把这个字段的值放入HashSet中,并且,我在foreach做了pr原创 2016-08-06 10:39:42 · 2248 阅读 · 0 评论 -
Spark优化及总结
本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优化 1、设置序列化器为KryoSerializer Spark默认使用的是Java序列化机制,但是Spark也支持使用Kryo序列化库,Kryo序列化机制比Java序列化机制性能高10倍左右 2、压缩机制 如果数原创 2016-08-06 10:54:05 · 4224 阅读 · 1 评论