大数据学习(二)，hadoop集群重要节点概述以及HDFS文件系统的原理

最新推荐文章于 2025-10-12 12:34:48 发布

原创

最新推荐文章于 2025-10-12 12:34:48 发布 · 3.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #分布式 #hadoop

本文介绍了Hadoop分布式文件系统（HDFS）的结构，特别是块的概念，以及NameNode、SecondaryNameNode、DataNode、JobTracker和TaskTracker等重要节点的角色。HDFS通过块存储和多副本策略确保数据的稳定性和可用性，同时阐述了SecondaryNameNode的作用在于合并元数据和充当检查点，而非NameNode的备份。

hadoop集群

概述
分布式文件系统的结构
- 块
集群中的重要节点

概述

在介绍hadoop集群的重要节点之前，先举一个简单的例子说明一下：

场景就是，我们有一个网站，网站中有很多用户，每个用户都有自己的信息和动态等，那么对于这些信息，我们网站的后台都是需要记录的。

怎么记录呢，直接就根据用户的标号，放在一个文件夹里吧，然后存在磁盘中（或者放在数据库里，都可以）
在这里插入图片描述
然后呢，随着时间的发展，用户的数量越来越多，我们后台的一个服务器里可能存不下这么多的数据，这个时候两种方式：

给磁盘扩容
加机器

如果我们给磁盘扩容的方式去处理，但是是不是需要考虑到我们一个服务器的处理能力，这样虽然可以在同一台机器中存储下来，这样就意味着服务器在找一个资源的时候，需要花费的时间变长了，因为分母变大了，他的效率就会有点小
在这里插入图片描述

采用加机器的方式，利用Nginx这些技术，将不同用户的信息存储在多个服务器中，至于来了一个用户，怎么确定他的信息在哪里，就需要看后端的算法怎么写的了，可以使用哈希，也可以使用自己定义的规则，但是一定要让第二次请求用户信息时，可以找到第一个存储的位置

在这里插入图片描述

但是这样还是有着一些问题，就比如我中间的一些用户信息存储在服务器A，但是某一段时间服务器A突然宕机了，那么就意味着服务器A暂时无法提供数据。

这样该怎么解决呢，hadoop分布式存储中的一系列机制，就确保了数据的稳定

在这里插入图片描述
他框架的核心就是：

海量数据提供存储的HDFS
提供计算的MapReduce，他的主要工作就是从磁盘或者网络中读取数据，以及对数据进行计算，就是那些IO密集和CPU密集工作

分布式文件系统的结构

在我们的操作系统（linux，Windows）中，文件系统会把磁盘空间划分为一些块，叫做磁盘块，他的大小一般为 $51$

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。