
Spark
Spark
尹忠政
奋斗的年纪
展开
-
spark介绍
spark介绍 spark是由加州伯克利大学的AMP实验室开发的一个通用的并行计算框架,2009年发布,2010年开源,是一个针对大规模数据处理的通用的分析引擎。spark也是基于map&reduce算法实现的一个分布式计算框架。 速度 从官网的介绍可以看出,spark的速度是mapreduce的100倍以上,即使是使用纯磁盘存储,速度也是mapreduce的10倍以上。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dunKftOJ-1598717040897)(C原创 2020-08-30 00:04:44 · 566 阅读 · 0 评论 -
Spark CmbineByKey之自定义key 源码解析
文章目录Spark CmbineByKey之自定义key 源码解析简要分析AppendOnlyMap结论测试总结 Spark CmbineByKey之自定义key 源码解析 习惯了MapReduce,对于自定义对象作为Key的情况太常见了,这里就对于Spark的CmbineByKey来进行分析,怎样实现自定义Key,无论书MR还是CmbineByKey的核心思想都是相同的key为一组. 简要分析AppendOnlyMap AppendOnlyMap // Holds keys and values in原创 2020-07-12 00:31:22 · 583 阅读 · 0 评论