MapReduce 基础学习

最新推荐文章于 2020-04-23 18:41:35 发布

weixin_30519071

最新推荐文章于 2020-04-23 18:41:35 发布

阅读量163

点赞数

CC 4.0 BY-SA版权

文章标签：运维大数据

原文链接：http://www.cnblogs.com/niejunlei/p/9726206.html

本文深入解析了MapReduce的工作原理，介绍了其软件框架如何通过分解并行处理任务提高效率，探讨了与Hadoop的集成，以及如何配置和优化MapReduce作业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是MapReduce？

计算和存储：mapreduce 和 haddoop：

通常来讲，计算节点和存储节点是同一个，即mapreduce框架和hadoop分布式文件系统运行在相同的节点集群，使得任务调度更加高效，网络带宽更聚合。

mapreduce框架包括一个单一的ResourceManager，每个集群节点一个NodeManager，每个应用一个MRAppMaster节点。

基本使用：

客户应用设置输入和输出位置=》提供实现map和reduce方法=》haddoop 任务客户端提交任务，同时向ResourceManager提交配置。

ResourceManager负责将提交的任务配置项从节点分发，调度任务，监控任务，向客户端提供任务状态及诊断信息。

数据形式：

mapreduce 框架以 k-v 形式操作数据，输入输出处理；

key 和 value 需要被序列化，通过实现 Writable 接口，以支持序列化；
key 对象还需要实现 WritableComparable 接口，以支持排序需求。
基本处理流程：(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)

Mapper：

将输入的k-v 键值对映射转换到中间 k-v 键值对，转换为单独的任务，中间类型和输入类型可以不同，一个输入键值对可能映射转换为0个或多个输出键值对。

map结果并不直接存储磁盘，会利用缓存做一些与排序处理，调用combiner，压缩，按key分区，排序等，尽量减少结果的大小。map完成后通知task，reduce进行处理。

Reducer：结果写入到hdfs中，归并处理为小批量结果

reduce：执行reduce方法，处理输入；reduce的数量应为0.95~1.75*节点数。0.95使得所有的reduce可以被全部启动执行；1.75使得执行最快的节点开始执行第二轮，第三轮...；数值越大，负载越大，增加了负载均衡需求，降低了失败成本；reducetask设置为0，则直接跳过reduce阶段，map结果直接输出到FileSystem中

哈希分区是默认的分区类型：HashPartitioner is the default Partitioner.

Job is typically used to specify the Mapper, combiner (if any), Partitioner, Reducer, InputFormat, OutputFormat implementations. FileInputFormat indicates the set of input files ( FileInputFormat.setInputPaths(Job, Path…)/ FileInputFormat.addInputPath(Job, Path)) and ( FileInputFormat.setInputPaths(Job, String…)/ FileInputFormat.addInputPaths(Job, String)) and where the output files should be written ( FileOutputFormat.setOutputPath(Path)).

job：提交任务，跟踪处理，访问任务报告，日志获取mapreduce集群状态。

job提交过程：