hadoop学习笔记（1）

最新推荐文章于 2025-08-08 11:08:45 发布

Rich_Billions

最新推荐文章于 2025-08-08 11:08:45 发布

阅读量379

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/hhl2046/article/details/46334791

hadoop 专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了MapReduce的工作流程，包括inputformat()和inputsplit的处理方式、outputFormat（）、Map、Reduce、context对象、job的配置以及控制流与数据流的概念。详细解释了从数据输入到最终输出的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.inputformat()和inputsplit

~format():用来生产供Map使用的 <key,value>（调用getRecord（）方法生产RecordReader，RecordReader再通过creatKey()和creatValue(创建<key,value>）
~split:存储和把输入的数据（分片长度和一个记录数据位置的数组）传送给每一个单独的Map（可以通过inputformat（）来设置）。

2.outputFormat（）

对于每种输入格式都有一种输出格式与其对应。

3.Map（输入Key,输入Value,输出Key,输出value）

接收经过inputformat处理的<k1,v1>输出<k2,v2> 继承Maper抽象类，四个类型的参数

4.Reduce()
用Map（）类推
5.context对象

使用MapContext进行MapReduce间的通信充当OutputCollector和Reporter的角色

6.job的配置

统一由Configurartion来完成。

这里写图片描述

控制流：负责控制和调度Mapreduce的job的是jobTracker，负责运行的是TaskTracker（Map Task和Reduce Task）不是一个完整的job，即：jobTracker调度任务给TaskTracker，TaskTracker执行任务，返回调度结果。
数据流：数据经过inputformat处理生产相应数目的inputsplit，输入到Map中，Map读取inputsplit指定位置的数据，按照设定的方式处理数据，最后写到指定位置（如：本地磁盘），reduce读取map输出的数据，合并value，然后输出到HDFS上

这里写图片描述