Annotated Hadoop: 第三节 MapReduce工作原理

本文介绍MapReduce的工作原理及其在WordCount应用中的具体流程。从输入输出数据类型到Map、Combine、Reduce各阶段的处理细节均有涉及。

          MapReduce工作原理

Map-Reduce框架的运作完全基于<key,value>对,即数据的输入是一批<key,value>对,生成的结果也是一批<key,value>对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。

 

一个Map-Reduce任务的执行过程以及数据输入输出的类型如下所示:

(input)<k1,v1> -> map -> <k2,v2> -> combine -> <k2,v2> -> reduce -> <k3,v3>(output)

 

下面通过一个的例子并结合源代码来详细说明这个过程

3.1       WordCount示例

这也是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。

假设有如下的两个文本文件来运行WorkCount程序:

Hello World Bye World

 

 

Hello Hadoop GoodBye Hadoop

 

 

 

 

3.2       map数据输入

Hadoop针对文本文件缺省使用LineRecordReader类来实现读取,一行一个key/value对,key取偏移量,value为行内容。

如下是map1的输入数据:

Key1

Value1

0

Hello World Bye World

如下是map2的输入数据:

Key1

Value1

0

Hello Hadoop GoodBye Hadoop

3.3       map输出/combine输入

如下是map1的输出结果

Key2

Value2

Hello

1

World

1

Bye

1

World

1

如下是map2的输出结果

Key2

Value2

Hello

1

Hadoop

1

GoodBye

1

Hadoop

1

3.4       combine输出

Combiner类实现将相同key的值合并起来,它也是一个Reducer的实现。

如下是combine1的输出

Key2

Value2

Hello

1

World

2

Bye

1

如下是combine2的输出

Key2

Value2

Hello

1

Hadoop

2

GoodBye

1

3.5       reduce输出

Reducer类实现将相同key的值合并起来。

如下是reduce的输出

Key2

Value2

Hello

2

World

2

Bye

1

Hadoop

2

GoodBye

1

即实现了WordCount的处理。

 

对/root/eduhq/equipment/目录下工单故障记录 表 sms_so_failure_logs.txt 进行文本清洗,删除数据中第 一行标题,避免在 Hive 导入时报错,同时删除前两列脏数 据,结果另存为 sms_so_failure_logs_shell.txt; ( 2 ) 对 /root/eduhq/equipment/ 目 录 下 设 备 表 province_iso.txt 进行文本清洗,删除数据中第一行标题, 避免在 Hive 导入时报错,同时删除前两列脏数据,结果另保 存为 province_iso_shell.txt。 (二)任务二:数据标注 使用 MapReduce 编写任务,对工单故障记录表 sms_so _failure_logs 进行操作,其中针对空字段进行分类,统 7 一处理,添加设备状态标签“未获取”; 添 加 标 签 后 的 数 据 保 存 至 HDFS , 具 体 路 径 为 /source/mr/sms_so_failure_logs/; * 判断每行字段的长度,保证字段一致 * 针对时间字段,进行时间格式化,统一时间 * 针对空字段,统一清洗,如设置为未获取,根据实际 需求来定义。 8 (三)任务三:数据统计 1.子任务一:文件上传下载 (1)Hive 中创建库 equipment_dashboard,作为 Hive 数据仓库公用的数据,并切换到此数据库下; (2)将标注后/source/mr/sms_so_failure_logs 数据, 上传至Hive表ods_sms_so_failure_log,自行创建数据表; (3)将/source/mr/province_iso/数据,上传至 Hive 表 ods_province_iso,自行创建数据表。 2.子任务二:数据统计 (1)统计设备数量; (2)统计用户数量
最新发布
11-18
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值