
MapReduce
偶尔想起你
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS的MapReduce执行流程
1. 从HDFS中获取数据 2. MapReduce首先会将输入的数据进行逻辑切片,每一个切片是一个InputSplit对象 3. 每一个InputSplit对象会交给一个MapTask来执行 4. 切片中的每一行数据都会触发一次map方法, 5. map方法的输入的键默认为数据偏移量,输入的值为这一行的数据;输出的键以及值的类型根据业务确定 6. 在Barrier阶段,会将所有相同的键所对应的值...原创 2019-02-14 09:42:52 · 320 阅读 · 0 评论 -
详解HDFS的Mapper类和Reduce类及4个泛型参数含义
Mapper类: Mapper组件开发方式:自定义一个类,继承Mapper Mapper组件的作用是定义每一个MapTask具体要怎么处理数据。例如一个文件,256MB,会生成2个MapTask。即2个MapTask处理逻辑是一样的,只是每个MapTask处理的数据不一样。 下面是Mapper类中的4个泛型含义: 泛型一:KEYIN:LongWritable,对应的Mapper的输入...原创 2019-02-14 09:53:09 · 5778 阅读 · 2 评论