跑完WordCount程序后,想在Hadoop集群上在熟练几个程序,毕竟辛苦搭建好的集群,选择了简单的两个例子:数据去重+数据排序。这里记录下程序及运行中发生的一些问题及解决方案。
前提准备:1、Ubuntu16.0系统+eclipse;
2、Ubuntu server版本搭建的分布式集群系统(1台master,2台slaves);
3、eclipse所在的Ubuntu系统应该和集群系统配置SSH免密登录。
参考例程序: 点击打开链接
实例1:数据去重
描述:在原始数据中出现次数超过一次的数据在输出文件中只出现一次
方法:哪个不能重复哪个设置成Key
原始数据:
1、原始数据
file1:
2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c
file2:
2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a<