
Hadoop
余生若初
热爱数学,大神求教
展开
-
hadoop二次排序案例,二次排序后寻找key字段相同,value最大值再输出到文件中。
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。 1). 保存文件第二字段与第四字段: package com.GroupOrder; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; public class OrderBean impl原创 2020-08-25 17:43:33 · 615 阅读 · 0 评论 -
一个简单的mapreduce程序全排列
全排序其实就是全局排序,就是使得所有数据按序排列输出,和我们平常做的给一个数组排序没有什么区别,唯一的区别就是数据量的不同,这里涉及的数据量是TB级别的,这就意味着不可能简单地把数据加载进内存进行排序,需要用到分布式计算,所以就产生了Hadoop的全排序,Hadoop的全排序在实际应用有着重要的作用。 1)准备数据(数据已经进行过分组聚合操作): 2)封装文件各字段: package com.Sort.Whole; import org.apache.hadoop.io.WritableComparab原创 2020-08-23 15:32:22 · 971 阅读 · 0 评论 -
自定义Partitioner分区
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2020-08-22 16:43:00 · 1712 阅读 · 1 评论