hadoop的三个基本功能和存储原理

本文档提供了Hadoop集群的验证步骤,包括HDFS和YARN页面的访问链接,以及一些常用命令如hadoopfs-ls、hdfsdfs-put和权限设置等。此外,还分享了两个关于Hadoop集群安装的详细教程链接,帮助读者了解HDFS文件在集群中的存储位置。

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

一、验证

hdfs页面验证

http://hadoop01:50070/

yarn页面验证

 http://hadoop01:8088/ 

常用命令

hadoop fs -ls

./bin/hdfs dfs -put example.file

hdfs dfs -setfacl -R -m user:zzz:r-x filepath

 hadoop fs -getfacl filepath

二、链接

Hadoop 集群安装详细步骤(2022.4.4)亲测有效_程序员小明。的博客-优快云博客_hadoop集群安装
Hadoop中HDFS的文件到底存储在集群节点本地文件系统哪里_YuanOo。的博客-优快云博客_hdfs文件存储在哪里
 


### Hadoop 的基本工作原理及架构 Hadoop 是一种用于大规模数据处理的开源框架,其核心由两个主要组件构成:Hadoop 分布式文件系统 (HDFS) MapReduce 计算引擎。以下是关于 Hadoop 工作原理及其架构的具体描述。 #### 1. **Hadoop 架构概述** Hadoop 提供了一种基于分布式系统的解决方案,能够利用廉价硬件集群来完成对海量数据的高效存储分析[^2]。它通过将任务分解到多个节点上运行的方式实现了高并发性可扩展性。 #### 2. **HDFSHadoop Distributed File System)** HDFSHadoop 中负责数据存储的核心模块。它的设计目标是在低成本的商品化服务器上提供可靠的数据存储能力。具体来说: - 数据会被分割成固定大小的块,默认情况下每一块为 128MB 或更大。 - 这些数据块会被复制多份(通常为三份),并分布在整个集群中的不同 DataNode 上以提高可靠性[^4]。 - NameNode 负责管理整个文件系统的元数据信息,包括哪些文件对应哪些数据块以及它们存储在哪几个 DataNode 上。 #### 3. **MapReduce 编程模型** MapReduce 是 Hadoop 所采用的一种编程范式,专门用来解决如何在大量机器组成的集群环境中有效地执行复杂运算的问题[^1]。此过程分为两步: - **Map 阶段**: 输入数据被分成若干个小片段分发至各个 Worker Node,在这里每个 worker node 对自己的那部分输入独立地应用 map 函数生成中间键值对集合。 - **Shuffle & Sort 阶段**: 将来自所有 Mapper 输出的结果按照 key 值重新整理排序后发送给对应的 Reducer 实体。 - **Reduce 阶段**: 接收到经过 shuffle 后的数据之后,Reducer 开始对其实施 reduce 操作最终得出全局汇总结果并将之保存回 HDFS 文件系统之中[^5]。 #### 4. **YARN(Yet Another Resource Negotiator)资源调度器** 随着版本迭代更新,为了更好地支持多样化的应用程序需求,引入了 YARN 组件替代原有的单一 JobTracker 设计模式。YARN 主要承担着两大职责——统一管理分配全集群范围内的计算资源;协调各类不同类型的任务请求之间的竞争关系从而保障整体性能最优。 --- ```python from hadoop import hdfs_client, yarn_scheduler def upload_data_to_hdfs(file_path): client = hdfs_client() try: with open(file_path, 'rb') as file: data = file.read() response = client.write(data) return f"File uploaded successfully! {response}" except Exception as e: return str(e) def submit_job(job_config): scheduler = yarn_scheduler() job_id = scheduler.submit(job_config) return job_id ``` 上述代码展示了如何使用 Python API 来上传文件到 HDFS 并提交作业到 YARN。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值