MapReduce
chipeize
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop_day05_MapReduce相关概念
1.MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对ma...原创 2019-08-20 19:39:20 · 162 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的入门案例(WordCount:统计单词出现次数)
1. 数据格式准备 1.1 创建一个新的文件 cd /export/servers vim wordcount.txt 1.2 向其中放入以下内容并保存 hello,world,hadoop hive,sqoop,flume,hello kitty,tom,jerry,world hadoop 1.3 上传到 HDFS hdfs dfs -mkdir /wordcount/ hd...原创 2019-08-20 19:45:52 · 411 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 Shuffle 详解(分区、排序、规约、分组)
一、分区 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等 其实就是相同类型的数据, 有共性的数据, 送到一起去处理 ...原创 2019-08-20 20:04:13 · 1277 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 经典案例(流量统计)
需求一:统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入 1.1 自定义SumBean public class SumBean implements Writa...原创 2019-08-20 20:21:40 · 842 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的工作机制详解
1. MapTask 工作机制 简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲...原创 2019-08-26 20:03:28 · 153 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 Reduce 和 Map 端实现 join 操作
一、Reduce 端 1. 需求 商品表 id pname category_id price P0001 小米5 1000 2000 P0002 锤子T1 1000 3000 订单数据表 id date pid amount 1001 20150710 P0001 2 1002 ...原创 2019-08-26 20:12:40 · 177 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 经典案例(求共同好友)
1. 需求分析 以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:A,B,D,E,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,...原创 2019-08-26 20:22:21 · 237 阅读 · 0 评论
分享