
MapReduce
文章平均质量分 58
普通网友
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce练习之Top k
1. 输入文件格式 algorithm,liuyifei,75,85,62,48,54,96,15 computer,huangjiaju,85,75,86,85,85 english,liuyifei,76,95,86,74,68,74,48 english,huangdatou,48,58,67,86,15,33,85 algorithm,huanglei,76,95,86,74,6...原创 2018-06-04 16:19:55 · 852 阅读 · 0 评论 -
MapReduce简介和wordcount
MapReduce简介 WordCount MyMap MyReduce MyJob package com; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.ha...原创 2018-05-29 07:13:13 · 785 阅读 · 0 评论 -
MapReduce练习之共同好友
0. 问题 通过mapreduce找出用户A,B,C…中每两个人所共同拥有的好友都有谁 输入文件 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A...原创 2018-06-05 13:51:47 · 598 阅读 · 1 评论 -
MapReduce练习之倒排索引
0. 问题TF-IDF 实现统计多个文档中一个单词出现的频数和出现在哪个文档中 在map中读取当前文档的每一行数据,得到当前文档路径 mapkey(单词:文档路径),mapvalue(数值1) 在map端设置Combiner类(整合数据,减少向reduce端传输数据的网络开销) 将map的输出重新组合输出<单词,文档路径:单词频数> 输入文件为三篇txt英文文档 输出文件格式为 ...原创 2018-06-06 10:26:02 · 367 阅读 · 0 评论 -
Windows下idea中实现Hadoop本地测试功能
0. 目标 Hadoop默认没有windows版本 Hadoop集群部署在Linux虚拟机上, 通过idea编写的MR代码和输入文件要打包jar发送给Linux 为便于测试MR代码是否正确, 希望在idea上运行MR 1. 解压hadoop到windows硬盘中 https://blog.youkuaiyun.com/wxfghy/article/details/80450469 win...原创 2018-05-31 11:25:34 · 3181 阅读 · 0 评论 -
MapReduce练习之二次排序
0. 运行环境 idea+hadoop 2.9.0 本地调试, 各个类分开写 输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 9 1. MyJob主方法所在类 package com; import org.apache.hadoop.conf.Configuration; impo...原创 2018-05-31 16:16:37 · 627 阅读 · 1 评论