
hadoop
难瘦的小灿
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
shuffle流程简介
官方流程图: Shuffle是MapReduce处理流程中的一个核心过程,它的每一个处理步骤是分散在maptask和reducetask节点上完成的,整体来看,分为3个核心操作: 1、分区partition 2、排序sort 3、合并combine 详细流程: 一、MAP 一个切片对应一个Maptask 1、分区(可参考:MapReduce切片、并行度、分区) 在将map()函数处理后得到的(key,value)对写入到缓冲区之前,需要先进行分区操作,这样就能把map任务处理的结果发送给指定的reduce原创 2020-05-10 17:28:18 · 3223 阅读 · 0 评论 -
MapReduce切片、并行度、分区
一、切片 一个job的map阶段并行度由客户端在提交Job是决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理;这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成。 切片大小的确认函数方法 p...原创 2020-05-02 23:51:29 · 522 阅读 · 0 评论 -
python调用hadoop
一、MRJob Mrjob是一个编写MapReduce任务的开源Python框架,它实际上对Hadoop Streaming的命令行进行了封装,因此接粗不到Hadoop的数据流命令行,使我们可以更轻松、快速的编写MapReduce任务。 Mrjob通过Python的yield机制将函数变成一个生成器,通过不断调用next()去实现key:value的初始化或运算操作。 #!/usr/bin/pyt...原创 2020-05-01 23:42:41 · 1817 阅读 · 0 评论 -
HADOOP的四大机制
HADOOP的四大机制一、心跳机制1.1、namenode是怎么知道各个从节点的存活状态呢?1.2、namenode什么是时候断定datanode死了?二、安全模式2.1 元数据的组成2.2集群在启动的时候namenode需要做哪些事情2.3安全模式形成三、机架策略四、负载均衡 一、心跳机制 namenode是集群的老大,负责集群上任务的分工,如果要进行分工,则必须知道各个从节点的存活状态。 1....转载 2020-04-25 23:56:34 · 681 阅读 · 1 评论