
MapReduce编程基础
文章平均质量分 72
本专栏将实践MapReduce编程中常见的编程实例,解读每个实例的实践原理及需要注意的知识点并上传源代码,希望与大家交流经验,共同学习。
元气满满的少女程序员
代码就像人家的魔法书,涂涂改改总能运行~
展开
-
MapReduce编程基础(一)——基础知识
MapReduce编程基础MapReduce任务可以被分为map和reduce两部分。Map任务map任务可以细分为4个阶段:record reader、mapper、combiner、partitioner map任务的输出被称为中间键,会被发送到reducer做后续处理。1.record readerrecord reader 将输入split解析成记录。record reader 的目的是将原创 2017-07-22 20:47:36 · 1806 阅读 · 0 评论 -
MapReduce编程基础(二)——数值概要(计算最大值、最小值、平均值)
数值概要数值概要模式是计算数据集聚合统计的一般性模式 适用场景: 要处理的数据数值或者计数 数据可以按某些特定的字段分组 数值概要的应用: 单词计数 记录计数 最大/最小值计数 平均值/中位数/标准差话不多说,现在直接开始我们的第一个示例,最大值、最小值计数示例最大值、最小值计数示例1.数据集:本示例使用Movielens数据集中的u1.base文原创 2017-07-22 21:42:07 · 4038 阅读 · 0 评论 -
MapReduce编程基础(二)——数值概要(计算中位数、标准差)
1.中位数与标准差计算示例中位数与标准差的计算相对于平均值、最大值、最小值的计算要相对更加复杂一些。因为这两个计算不满足交换律和结合律,所以不能向之前那样轻松的使用combiner。1.中位数与标准差中位数是将数据集从高到低进行排序,取中间的那个值。这要求数据集是完整的,并且是混排过的。 标准差显示了数据相对于平均值的变化情况,因此需要在简化之前计算出数据的平均值。2.数据集本示例使用Moviel原创 2017-07-23 19:43:15 · 3197 阅读 · 0 评论 -
MapReduce编程基础(二)——数值概要(计算中位数、标准差)[内存优化]
1.中位数与标准差计算示例【内存优化】在前一篇博客中,我介绍了一种计算中位数和标准差的方法,但是该方法需要将所有的数据读入内存再进行遍历,不够优化。所以在这里,我们将前一种方法进行优化, 将所有的数值都插入列表会产生大量的重复的元素。一个规避重复元素的方法就是保存元素的计数。 例如:要保存<1,1,1,1,2,2,3,4,5,5,5>可以使用排序好的值到计数的映射来代替:(1->4,2->2,3原创 2017-07-23 20:16:03 · 1269 阅读 · 0 评论