
MapReduce
zerone-f
这个作者很懒,什么都没留下…
展开
-
使用Hadoop的MapReduce实现数据排序
最近想系统学习大数据知识,在观看视频编写代码的时候,在数据排序的时候,出现了一些问题,一致于弄了好久才找到原因,现在记录下来,方便查看数据输入格式:按照我的代码逻辑,应该输出数据为在代码处理时,计算结果却是没有输出输入的数据,而是输出最后保存在HDFS上的数据只是1 12 23 34 45 56 67 7...原创 2018-10-06 16:20:33 · 15497 阅读 · 4 评论 -
Hadoop MapReduce多维排序
在实际的编程过程中,经常遇到需要对数据进行多维度的排序。数据数据:Spark 100Hadoop 60Kafka 95Spark 99Hadoop 65Kafka 98Spark 99Hadoop 63Kafka 97要求,对key和同一组的value也进行排序输出数据:编程示例:import org.apache.hadoop.conf.Configur...原创 2018-10-10 11:42:30 · 266 阅读 · 0 评论 -
hadoop MapReduce倒排索引编程
统计每个单词在每个文件中出现的次数输入数据:file1.txtSpark is so powerfulfile2.txtSpark is the most exciting thing happening in big data todayfile3.txtHello Spark Hello again Spark输出格式:代码实现:import or...原创 2018-10-10 00:45:54 · 524 阅读 · 0 评论 -
hadoop MapReduce自连接算法实现
HHadoop的MapRedcuer自连接实现,找出每个child的grandprent,如Tom是Lucy的child,Lucy是Mary的child,那么Mary是Tom 的grandparent。输入数据:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Je...原创 2018-10-09 18:06:31 · 1083 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之实现
转自:一起学Hadoop——二次排序算法的实现二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年的高高气温,key为年份,value为最高气温,年...转载 2018-10-08 16:16:59 · 1576 阅读 · 1 评论 -
Hadoop MapReduce二次排序算法与实现之算法解析
MapReduce二次排序的原理 1.在Mapper阶段,会通过inputFormat的getSplits来把数据集分割成splitpublic abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...原创 2018-10-08 09:47:05 · 433 阅读 · 0 评论 -
Hadoop Join性能优化
为什么要优化?数据格式address.txt1 America2 China3 Germennumber.txt1 Spark 12 Hadoop 13 Flink 24 Kafka 35 Tachyon 2输出格式:发现程序运行的时候总是没法把结果写到HDFS上,有问...原创 2018-10-07 22:38:15 · 269 阅读 · 0 评论 -
用Hadoop的MapReduce处理员工信息Join操作
在进行处理员工信息Join编程时,遇到了一点问题,我想先不纠结这个问题了,到后面有时间在慢慢来看这个问题吧输入的数据格式worker.txt empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 ...原创 2018-10-07 10:56:35 · 587 阅读 · 0 评论 -
用Hadoop的MapReduce计算框架实战URL流量分析
输入的数据格式:123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...原创 2018-10-06 23:42:49 · 872 阅读 · 0 评论 -
用Hadoop的MapReduce求最大最小值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 找出数据中的最大值和最小值输入数据格式: 4568 2 6598 2222222 8899 3 7 9 1 0 56 96 564 145 231 8899 889...原创 2018-10-06 18:56:59 · 6942 阅读 · 1 评论 -
用Hadoop的MapReduce求平均值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io....原创 2018-10-06 18:52:02 · 1226 阅读 · 0 评论 -
Hadoop链式的MapReduce编程
通过多个Mapper过滤出符合要求的数据输入数据:computer 5000SmartPhone 3000Tablet 15000TV 5000Book 18Clothes 150Gloves 9SmartPhone 3000Tablet 1500computer 5000SmartPhone 3000...原创 2018-10-10 15:23:06 · 372 阅读 · 0 评论