hadoop的基本构造

本文深入解析了Hadoop的基本构造,包括其主从结构、守护进程角色(如NameNode、DataNode、SecondaryNameNode、JobTracker和TaskTracker)及其在大型数据处理中的应用。重点介绍了Namenode、DataNode、SecondaryNameNode、JobTracker和TaskTracker在Hadoop集群中的功能和作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop的基本构造

总体来说,hadoop是用来实现分布式存储与分布式计算这些思想的。

Hadoop的结构是主从结构(master/slave)

运行hadoop意味着在网络分布的多个服务器上运行守护进程,这些守护进程的角色有:NameNode,DataNode,Secondary NameNode,Job Tracker, Task Tracker.

Namenode

NameNode在Hadoop集群的master,它指导slave的datanode执行底层I/O任务。它跟踪文件如何被分成块,而这些块又被哪些节点存储,监控分布式系统整体状态。

因为Namenode会消耗大量内存,一般NameNode所在的服务器不会进行存储和计算,所以NameNode服务器不会同时是Datanode(存储)和TaskTracker(Mapreduce计算)。

DataNode

DataNode是守在slave节点的守护进程,它被NameNode指导和监控。

Secondary NameNode

SNN是HDFS的辅助守护进程。

Job Tracker

Hadoop的master/slave结构,JobTracker通常运行在服务器的主节点上。它分配map和recuse任务给Tasktracker,如果任务失败,它将自动重启任务(可以收动设置重启次数)。

TaskTracker

JobTracker作为master,检测整个计算过程。TaskTracker管理各个slave的执行情况。每个节点只有一个TaskTracker,但是它可以生成多个JVM(Java虚拟机)并行处理多个map和reduce任务。

TaskTracker不断与JobbTracker通信,如果JobTracker在指定时间没有收到TaskTracker的汇报,则默认此节点崩溃,会重启任务。


在大型数据处理中,一般Namenode和Jobtracker分别在一个机器上,每个slave存在一个NameNode和TaskTracker,在存储节点的同一节点上运行计算,增加效率。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值