- 博客(2)
- 资源 (13)
- 问答 (1)
- 收藏
- 关注
转载 MapReduce 算法设计(二)--- Pairs 和 Stripes
Pairs 和 Stripes之前提到从MapReduce 可控和不可控的方面我们可以挖掘出一些有用的设计模式。在可控方面Key 和Value 数据结构的自定义给了我们很大的发挥空间。 本篇要讲述的就是Pairs 和Stripes 。这两种设计模式并没有利用MapReduce 的框架机制,而是巧妙的利用数据结构来实现的。但是依然可以利用我们之前提到的Combiner 和In-Mapper Comb...
2018-05-03 13:45:28
850
1
原创 spark基础知识
spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的...
2017-08-08 15:35:15
230
Java性能优化权威指南.pdf 带书签完整版
2018-05-25
深入解析Windows操作系统 第6版 上册 中文完整书签版
2018-01-25
Python数据分析与挖掘实战-目录书签-完整版.pdf
2017-11-30
Python爬虫开发与项目实战 书签目录版
2018-04-13
Apache Benchmark-2.2.19-64
2018-12-26
jQuery下拉选框可以输入,如何实现
2016-03-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅