Hadoop是什么

最新推荐文章于 2025-06-24 18:32:15 发布

最新推荐文章于 2025-06-24 18:32:15 发布 · 1.5k 阅读

·

0

·

数据库专栏收录该内容

17 篇文章

订阅专栏

http://www.cnblogs.com/Yuppy-Lotr/p/5983839.html

2.Hadoop核心思想

　　Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台，其核心部件是HDFS与MapReduce

　　HDFS是一个分布式文件系统：传统文件系统的硬盘寻址慢，通过引入存放文件信息的服务器Namenode和实际存放数据的服务器Datanode进行串接。对数据系统进行分布式储存读取。

　　MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算\Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

3.HDFS文件系统和MapReduce计算框架在Hadoop生态圈中的应用

　　HDFS负责Hadoop生态圈的数据存取工作

　　MapReduce负责Hadoop生态圈的数据运算工作

　　Hadoop生态圈使用HDFS文件系统进行存取数据，数据被分散的保存在集群的各个服务器上，在计算数据时使用MapReduce结合HDFS进行逻辑运算取出数据。

4.Master/Slave的架构理念

　　Hadoop使用（Master/Slave）主从架构进行分布式储存和分布式计算。Master负责分配和管理任务，Slave负责实际执行任务。

　　MapReduce中装载有JobTracker的服务器负责进行Master任务，装载有TaskTracker的服务器负责进行Slave任务。

　　HDFS中装载有Namenode的服务器负责进行Master任务，装载有Datanode的服务器负责进行Slave任务。

5.HDFS&MapReduce的设计思路

　　HDFS：

　　　　将文件进行切块处理，再通过文件信息服务器Namenode存放切块的文件信息存放地址，实际存放数据的服务器Datanode存在切块后的数据。

　　　　系统默认：每个片块大小为64M，以保证寻址速度；数据会写入3个Datanode中，以保证更高的容错性；

　　　　HDFS还设计了Secondary Namenode来更新Namenode，以避免日志文件过大

　　　　HDFS Client帮助Namenode对写入读取数据进行预处理，进行文件的分块与发送读取操作。Namenode负责为数据任务寻址

　　MapReduce：

　　　　通过JobClient生成任务运行文件，并在JobTracker进行调度指派TaskTracker完成任务。

　　　　JobTracker分为把任务文件进行分解并派送到TaskTracker的程序JobinProgress和执行调度器的TaskScheduler

　　　　JobinProgress把作业分解成Map计算和Reduce计算并放置到TaskTracker服务器中

6.HDFS&MapReduce组件介绍

　　HDFS：

　　　　Namenode(Master)：管理着每个文件中各个块所在的数据节点的位置信息

　　　　Namespace image:记录每个文件的存在位置信息

　　　　Edit log:记录每个文件的位置移动信息

　　　　Datanode(Slave)：记录着服务器内所储存的数据块的列表

　　　　Secondary Namenode：更新并备份Namenode

　　　　HDFS Client：进行文件的分块与文件的发送读取

　　MapReduce：

　　　　JobClient:用于把用户的作业任务生成Job的运行包，并存放到HDFS中。

　　　　JobinProgress：把Job运行包分解成MapTask和ReduceTask并存放于TaskTracker中

　　　　JobTracker(Master)：进行调度管理TaskTracker执行任务

　　　　TaskTracker(Slave)：执行分配下来的Map计算或Reduce计算任务

7.Hadoop运行机制

　　HDFS：

　　　　Namenode使用镜像文件(Namespace image)和操作日志文件(edit log)对数据进行记录。（保存在缓存和磁盘中）

　　　　Secondary Namenode进行更新时的操作：

　　　　　　1.在Namenode创建一个新的操作日志，将新的操作记录写入到新的操作日志中；

　　　　　　2.将Namenode的镜像文件和操作日志拷贝到Secondary Namenode中；

　　　　　　3.在Secondary Namenode中读取镜像文件到内存，并执行日志文件中的所有操作，生产新的镜像文件；

　　　　　　4.把Secondary Namenode中创建的镜像文件拷贝到Namenode中；

　　　　　　5.Namenode中使用新的镜像文件和操作日志替代原来的文件；

　　存数据：

　　　　　　1.HDFS Client对文件分块并向Namenode发送写数据请求

　　　　　　2.Namenode把block信息记录下来，并返回可写入的Datanode

　　　　　　3.HDFS Client向指定的Datanode传送数据

　　　　　　4.传送成功后，Datanode会向Namenode和HDFS Client发送成功通知

　　读数据：

　　　　　　1.HDFS Client从Namenode中获取文件块的位置

　　　　　　2.HDFS Client根据Namenode返回的文件信息去Datanode相关位置中读取

　　MapReduce：

　　　　通过JobClient把用户的作业任务转换成job.xml、job.jar、job.split，适合JobTracker执行的文件

　　　　　　1.job.xml文件记录了Job的详细配置信息

　　　　　　2.job.jar保存了用户定义的关于job的map、reduce操纵

　　　　　　3.job.split保存了job任务的切片信息

　　　　JobClient会为作业向JobTracker申请Jobid，并以Jobid命名把xml、jar、split文件放置进HDFS中

　　　　JobinProgress会把JobClient创建的Job拷贝到JobTracker本地文件系统，并创建JobStatus和Job的mapTask、reduceTask队列来跟踪Job的状态信息。

　　　　JobTracker默认执行一下调度法则

　　　　　　1.先进先出：集群内的资源统一进行使用，执行先进队列先执行的原则。

　　　　　　2.公平调度：按用户分配集群内的资源，每个用户只能在指定的资源内运行调度。

　　　　　　3.队列调度：可以设置多个队列，每个队列都可以进行置顶的资源调度

　　　　TaskTracker向JobTracker发送心跳报告及执行命令

8.MapReduce集群的配置

服务器　　　　守护进程　　　　　　　说明

server1 　　　namenode　　　　　　　　　 namenode节点

server2 　　　jobtracker 　　　　任务主节点

server3 　　　secondary namenode 　　　　secondary namenode

dserver1 　　datanode tasktracker　　　　数据节点

dserver2 　　datanode tasktracker　　　　数据节点

dsdrver3　　 datanode tasktracker 　　　　数据节点

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。