Hadoop 入门指南:从基础到应用
1. Hadoop 基础概述
Hadoop 2 引入 YARN 后,MapReduce 被重写为 YARN 应用程序,称为 MapReduce 2(或 MRv2)。从开发者角度看,Hadoop 2 中的 MapReduce 与 Hadoop 1 工作方式大致相同,为 Hadoop 1 编写的代码在 2.7 版本上无需更改代码即可执行,但部分代码可能需要针对 Hadoop 2 二进制文件重新编译。
Reduce 函数的伪代码定义如下逻辑:
list(key3, value3)
reduce (key2, list (value2's))
Reduce 函数针对每个唯一的 Map 输出键调用一次,所有映射器为某个键输出的值会以列表形式提供。与 Map 函数一样,Reduce 可以输出零到多个键值对,其输出可以写入 HDFS 中的平面文件、更新 NoSQL 数据库中的行,或根据作业要求写入任何数据接收器。
2. Hadoop 生态系统
Hadoop 生态系统丰富多样且不断发展,本书关注当前用户采用最多的工具,包括:
- 高级语言 :Weave、Scalding、Cascalog、Crunch、Cascading、Pig 等。
- 预测分析 :RHadoop、Rhipe、R 等。
- 替代处理 :Summingbird、Spark、Storm 等。
超级会员免费看
订阅专栏 解锁全文
569

被折叠的 条评论
为什么被折叠?



