hadoop集群图解_硬货:hadoop概论!

最新推荐文章于 2024-07-21 04:00:12 发布

原创

最新推荐文章于 2024-07-21 04:00:12 发布 · 501 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop集群图解

本文详细介绍了Hadoop的核心组件HDFS的原理和操作，包括HDFS的数据块、Namenode、Datanode、Secondarynamenode以及常用命令。接着讲解了HBase的分布式列式存储特性，Hive的数据分析功能，以及YARN的资源调度机制。通过本文，读者可以对Hadoop生态系统有初步理解。

Hadoop是大数据开发使用核心的一个框架，是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的系统。核心模块主要为：HDFS,YARN,MapReduce，当然还有与之息息相关的其他系统，比如 Zookeeper,Flume等等。

如今我正在学习Hadoop的各类模块，已经学习了HDFS，Hbase，Hive，YARN，MapReduce以及Flume，容我一一道来。

HDFS：又称Hadoop分布式分件系统，可以对海量数据进行储存与管理。但请注意，hdfs遵循一致性模型，一次写入，多次读取，只能在末尾追加内容。

HDFS工作原理：客户端发出读取请求，namenode接受请求，并获取需要被操作的文件的文件名，文件大小等信息，namenode会将文件信息记录到本地，并验证客户端的读取权限，最后才将文件数据块的储存位置信息返回给客户端，从而使客户端找到文件，并写入数据，再最后，被写入数据的文件，需要备份到另外两个数据节点。

HDFS各类组件：

Client,namenode,datanode,secondarynamenode

数据块(block)

1，数据块：hdfs中一个文件被物理切割为多个大小为128MB的数据块，并由三个备份，存放再不同的数据节点。

2， Datanode：相当于本地磁盘，数据真正储存的位置

3， Namenode：记录文件相关信息的数据，也就是元数据。

4， Secondarynamenode：协助namenode管理元数据，主要是fsimage与edits文件。

5， Fsimage文件：储存元数据(文件系统中所有目录，文件以及数据块的索引)。

6， Edits文件：日志文件，记录着所有的操作记录！

7， Fsimage与edits文件协调：

在namenode中的edits与fsimage文件，会在secondarynamenode中进行合并

为fsimage，而被修改后的edits替换旧edits。这样保证了edits的数量不增。

Hdfs基本命令：

一，启动Hadoop：

Start-all.sh

二，hdfs命令

1，统一格式：

Hdfs d

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。