大数据学习(二),hadoop集群重要节点概述以及HDFS文件系统的原理

本文介绍了Hadoop分布式文件系统(HDFS)的结构,特别是块的概念,以及NameNode、SecondaryNameNode、DataNode、JobTracker和TaskTracker等重要节点的角色。HDFS通过块存储和多副本策略确保数据的稳定性和可用性,同时阐述了SecondaryNameNode的作用在于合并元数据和充当检查点,而非NameNode的备份。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

在介绍hadoop集群的重要节点之前,先举一个简单的例子说明一下:

场景就是,我们有一个网站,网站中有很多用户,每个用户都有自己的信息和动态等,那么对于这些信息,我们网站的后台都是需要记录的。

怎么记录呢,直接就根据用户的标号,放在一个文件夹里吧,然后存在磁盘中(或者放在数据库里,都可以)
在这里插入图片描述
然后呢,随着时间的发展,用户的数量越来越多,我们后台的一个服务器里可能存不下这么多的数据,这个时候两种方式:

  1. 给磁盘扩容
  2. 加机器

如果我们给磁盘扩容的方式去处理,但是是不是需要考虑到我们一个服务器的处理能力,这样虽然可以在同一台机器中存储下来,这样就意味着服务器在找一个资源的时候,需要花费的时间变长了,因为分母变大了,他的效率就会有点小
在这里插入图片描述

采用加机器的方式,利用Nginx这些技术,将不同用户的信息存储在多个服务器中,至于来了一个用户,怎么确定他的信息在哪里,就需要看后端的算法怎么写的了 ,可以使用哈希,也可以使用自己定义的规则,但是一定要让第二次请求用户信息时,可以找到第一个存储的位置

在这里插入图片描述

但是这样还是有着一些问题,就比如我中间的一些用户信息存储在服务器A,但是某一段时间服务器A突然宕机了,那么就意味着服务器A暂时无法提供数据。

这样该怎么解决呢,hadoop分布式存储中的一系列机制,就确保了数据的稳定

在这里插入图片描述
他框架的核心就是:

  1. 海量数据提供存储的HDFS
  2. 提供计算的MapReduce,他的主要工作就是从磁盘或者网络中读取数据,以及对数据进行计算,就是那些IO密集和CPU密集工作

分布式文件系统的结构

在我们的操作系统(linuxWindows)中,文件系统会把磁盘空间划分为一些块,叫做磁盘块,他的大小一般为 512 512

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值