
MapReduce
zerone-f
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用Hadoop的MapReduce实现数据排序
最近想系统学习大数据知识,在观看视频编写代码的时候,在数据排序的时候,出现了一些问题,一致于弄了好久才找到原因,现在记录下来,方便查看 数据输入格式: 按照我的代码逻辑,应该输出数据为 在代码处理时,计算结果却是 没有输出输入的数据,而是输出 最后保存在HDFS上的数据只是 1 1 2 2 3 3 4 4 5 5 6 6 7 7...原创 2018-10-06 16:20:33 · 15545 阅读 · 4 评论 -
Hadoop MapReduce多维排序
在实际的编程过程中,经常遇到需要对数据进行多维度的排序。 数据数据: Spark 100 Hadoop 60 Kafka 95 Spark 99 Hadoop 65 Kafka 98 Spark 99 Hadoop 63 Kafka 97 要求,对key和同一组的value也进行排序 输出数据: 编程示例: import org.apache.hadoop.conf.Configur...原创 2018-10-10 11:42:30 · 281 阅读 · 0 评论 -
hadoop MapReduce倒排索引编程
统计每个单词在每个文件中出现的次数 输入数据: file1.txt Spark is so powerful file2.txt Spark is the most exciting thing happening in big data today file3.txt Hello Spark Hello again Spark 输出格式: 代码实现: import or...原创 2018-10-10 00:45:54 · 556 阅读 · 0 评论 -
hadoop MapReduce自连接算法实现
HHadoop的MapRedcuer自连接实现,找出每个child的grandprent,如Tom是Lucy的child,Lucy是Mary的child,那么Mary是Tom 的grandparent。 输入数据: child parent Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Mary Lucy Ben Jack Alice Jack Je...原创 2018-10-09 18:06:31 · 1120 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之实现
转自:一起学Hadoop——二次排序算法的实现 二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年的高高气温,key为年份,value为最高气温,年...转载 2018-10-08 16:16:59 · 1602 阅读 · 1 评论 -
Hadoop MapReduce二次排序算法与实现之算法解析
MapReduce二次排序的原理 1.在Mapper阶段,会通过inputFormat的getSplits来把数据集分割成split public abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...原创 2018-10-08 09:47:05 · 446 阅读 · 0 评论 -
Hadoop Join性能优化
为什么要优化? 数据格式 address.txt 1 America 2 China 3 Germen number.txt 1 Spark 1 2 Hadoop 1 3 Flink 2 4 Kafka 3 5 Tachyon 2 输出格式: 发现程序运行的时候总是没法把结果写到HDFS上,有问...原创 2018-10-07 22:38:15 · 287 阅读 · 0 评论 -
用Hadoop的MapReduce处理员工信息Join操作
在进行处理员工信息Join编程时,遇到了一点问题,我想先不纠结这个问题了,到后面有时间在慢慢来看这个问题吧 输入的数据格式 worker.txt empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 ...原创 2018-10-07 10:56:35 · 610 阅读 · 0 评论 -
用Hadoop的MapReduce计算框架实战URL流量分析
输入的数据格式: 123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...原创 2018-10-06 23:42:49 · 888 阅读 · 0 评论 -
用Hadoop的MapReduce求最大最小值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 找出数据中的最大值和最小值 输入数据格式: 4568 2 6598 2222222 8899 3 7 9 1 0 56 96 564 145 231 8899 889...原创 2018-10-06 18:56:59 · 6982 阅读 · 1 评论 -
用Hadoop的MapReduce求平均值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.FloatWritable; import org.apache.hadoop.io....原创 2018-10-06 18:52:02 · 1248 阅读 · 0 评论 -
Hadoop链式的MapReduce编程
通过多个Mapper过滤出符合要求的数据 输入数据: computer 5000 SmartPhone 3000 Tablet 15000 TV 5000 Book 18 Clothes 150 Gloves 9 SmartPhone 3000 Tablet 1500 computer 5000 SmartPhone 3000 ...原创 2018-10-10 15:23:06 · 392 阅读 · 0 评论