Haoop系列之入门

最新推荐文章于 2023-11-21 14:44:05 发布

路柳狂花

最新推荐文章于 2023-11-21 14:44:05 发布

阅读量151

点赞数

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ab31ab/article/details/119348331

版权

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。

Hadoop 优势（ 4 高）

1 ）高可靠性： Hadoop 底层维护多个数据副本，所以即使 Hadoop 某个计算元

素或存储出现故障，也不会导致数据的丢失。

2 ）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3 ）高效性：在 MapReduce 的思想下， Hadoop 是并行工作的，以加快任务处理速度。

4 ）高容错性：能够自动将失败的任务重新分配。

Hadoop 组成

计算，资源调度，数据存储，辅助工具

大数据技术生态体系

数据来源层->数据传输层->数据存储层->资源管理层->数据计算层->任务调度层->业务模型层

HDFS 架构概述

1 ） NameNode （ nn ）：存储文件的 元数据 ，如 文件名，文件目录结构，文件属性 （生成时间、副本数、文件权限），以及每个文件的 块列表 和 块所在的 DataNode 等。

2 ） DataNode(dn) ：在本地文件系统 存储文件块数据 ，以及 块数据的校验和 。

3 ） Secondary NameNode(2nn) ： 每隔一段时间对 NameNode 元数据备份 。

YARN 架构概述

1 ） ResourceManager （ RM ）：整个集群资源（内存、 CPU 等）的老大

2 ） NodeManager （ N M ）：单个节点服务器资源老大

3 ） ApplicationMaster （ AM ）：单个任务运行的老大

4 ） Container ：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、 CPU 、磁盘、网络等。

集群部署规划

注意：

➢ NameNode 和 SecondaryNameNode 不要安装在同一台服务器

➢ ResourceManager 也很消耗内存，不要和 NameNode 、 SecondaryNameNode 配置在

同一台机器上。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。