3、MapReduce 设计模式与数值汇总分析

MapReduce 设计模式与数值汇总分析

1. MapReduce 基础与 Pig、Hive 概述

在 MapReduce 中,如同在映射器(mapper)里一样,我们通过模板父类指定输入和输出类型。这些类型对应着输入键、输入值、输出键和输出值。输入键和输入值的数据类型必须与映射器的输出键/值类型相匹配,而输出键和输出值的数据类型必须与作业配置的 FileOutputFormat 所期望的类型一致。在默认情况下,我们使用 TextOutputFormat ,它可以接受任意两个 Writable 对象作为输出。

归约函数(reduce)与映射函数(map)的签名有所不同。归约函数提供一个值的迭代器,而非单个值,因为此时需要遍历具有相同键的所有值。在几乎所有的 MapReduce 作业中,键在归约器(reducer)里非常重要,这与映射器中的输入键不同。任何传递给 context.write 的内容都会被写入文件,每个归约器会创建一个文件,若要合并这些文件,就需要编写后处理步骤。

Pig 和 Hive 是 MapReduce 的高级抽象,它们提供的接口与“map”或“reduce”无关,但系统会将高级语言解释为一系列的 MapReduce 作业,就像关系数据库管理系统(RDBMS)中的查询规划器将 SQL 转换为实际的数据操作一样。与 Java 实现的原始 Hadoop 相比,Pig 和 SQL(或 HiveQL)的代码通常更为简洁。例如,用 Java 解释全序排序可能需要好几页,而 Pig 只需几行代码就能完成。

不过,使用 Java Map

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值