2-3HDFS原理(Hadoop系列day02)

本文深入解析HDFS架构,包括元数据的存储与管理方式、NameNode的功能与工作流程,以及SecondaryNameNode的角色与合并机制。通过具体实例说明元数据同步过程。
部署运行你感兴趣的模型镜像

hdfs架构

这里写图片描述

这里写图片描述

Metadata–>元数据

元数据信息,
内存保留一份,磁盘保留一份
(为了快速读取,保存在内存;
为了防止丢失,序列化到硬盘一份)

元数据存储细节

这里写图片描述

元数据存储细节

: 文件名,几个副本,分成几块,每块存放在哪台主机上

namenode是啥

这里写图片描述
namenode维护文件路径树。

接收客服端请求。

操作datanode

fsimage:元数据镜像文件(内存中的元数据序列化到磁盘上的文件)

NameNode的工作特点

这里写图片描述

SecondaryNameNode

下载、合并、推送
这里写图片描述

这里写代码片

画图总结工作流程

这里写图片描述
client要上传数据,首先根NameNade打交道。
1.client发送一个请求信息给NameNade:请求查看NameNade的元数据(Metadata)信息。
2.NameNade将信息反馈给client
3.client拿到这些信息,开始往DataNode写数据。
3.1 与此同时,NameNade操作edits文件。
3.2不管写成功还是失败,edits文件都要记录一条信息。(标示位记录成功或失败)
3.3 如果成功了,edits记录内容为:文件名称、存放位置、被分成几块。 日志信息+1 ,edits文件返回,然后修改内存中的Metadata,内存中的Metadata也+1(多了一条信息).————-这个时候fsimage内容没有+1.(内存中Metadata数据和fsimage数据没有完全同步)

例子:你在一个月之前向我们的hdfs上传了两个文件(原来hdfs没有文件),接下来一个月没有做任何操作。
内存中的Metadata应该有几分信息的描述信息? 答:2条。(内存当中的Metadata是实时更新的)
磁盘上的fsimage应该有几分信息的描述信息?答:2条。(一个月SecondaryNameNode合并工作都进行好多次了)
edits有几分信息的描述信息?答:2条不对。(edits与fsimage文件合并之后,edits文件会产生信息,为了以后记录新的edits)

一个月之后。我又想上传一个文件。client发送一个请求信息给NameNade,请求查看NameNade的Metadata;NameNade将信息反馈给client;.client拿到这些信息,开始往DataNode写数据。假设数据写成功了。edits存的描述信息加了一条,将结果返回,接着修改Metadata。
这个时候Metadata一共存放了3条描述信息。edits一共存放了1条。 fsimage存放了2条。现在内存中和fsimage中的数据不同步了怎样才能同步?当满足一定的条件,SecondaryNameNode要工作了,他把edits和fsimage文件获取到,进行合并。数据同步了。

合并的时机有几个? 1.满足一定的时间,ok.2.当edits达到一定大小。
这里写图片描述

引用块内容

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 在 Hadoop 中批量创建 HDFS 文件夹的方法或命令 #### 1. ### 使用循环脚本实现批量创建 可以通过编写一个简单的 Bash 脚本来调用 `hadoop fs -mkdir` 命令,从而实现批量创建 HDFS 上的文件夹。以下是具体示例: ```bash for dir in {dir1,dir2,dir3}; do hadoop fs -mkdir -p /path/to/destination/$dir done ``` 这里的 `{dir1,dir2,dir3}` 是需要创建的目录名称列表,可以根据实际情况替换为所需的目录名。`-p` 参数的作用是指定父级目录不存在时自动创建[^4]。 --- #### 2. ### 利用输入文件进行自动化创建 如果目标目录较多,可以将所有要创建的目录路径存储在一个文本文件中,每行代表一个路径。接着通过以下命令读取并执行创建操作: 假设有一个名为 `dirs.txt` 的文件,其内容如下: ``` /path/to/dir1 /path/to/dir2/subdir ... ``` 那么可以运行下面这段代码完成任务: ```bash while read line; do hadoop fs -mkdir -p "$line" done < dirs.txt ``` 这种方式非常适合处理大规模数据场景下的复杂结构初始化工作。 --- #### 3. ### 单条命令结合通配符快速构建相似命名空间 当新建立的目标位置具有某种规律性的前缀或者后缀特征时,也可以尝试直接采用单次调用来简化流程。比如想要生成一系列按日期分隔的日志保存区位 `/logs/yyyy/mm/dd` ,则有办法像这样写出来: ```bash start_year=2023 end_month=12 start_day=1; end_date=$(date +%Y/%m/%d --date="$start_year-$((end_month))-$((start_day + 30))"); seq $(( $(date --date="${start_year}-${end_month}-$start_day" &#39;+%s&#39;) )) \ $((60*60*24)) ${end_date} | while read ts ;do d=$(date --date="@$ts" +"${start_year}/%m/%d"); echo "/logs/${d}" >> log_dirs.lst; done ; cat log_dirs.lst|xargs -n1 -I{} hadoop fs -mkdir -p {} rm -f log_dirs.lst ``` 上述脚本实现了从给定起始时间点往后推算一个月内的每一天对应日志存放地址,并逐个提交 mkdir 请求至集群服务端。 --- #### 注意事项 - **权限管理**: 确保当前用户拥有足够的权限去访问以及修改所涉及的相关资源节点。 - **网络状况监测**: 高并发情况下可能会遇到短暂连接失败等问题,建议适当增加重试机制提高稳定性。 - **性能考量**: 对非常庞大的数量级请求而言,考虑分区批次提交减少瞬间负载压力。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值