Hadoop
是一个由
Apache
基金会所开发的
分布式系统基础架构
。
Hadoop
优势(
4
高)
1
)高可靠性:
Hadoop
底层维护多个数据副本,所以即使
Hadoop
某个计算元
素或存储出现故障,也不会导致数据的丢失。
2
)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3
)高效性:在
MapReduce
的思想下,
Hadoop
是并行工作的,以加快任务处理速度。
4
)高容错性:能够自动将失败的任务重新分配。
Hadoop
组成
计算,资源调度,数据存储,辅助工具

大数据技术生态体系

数据来源层->数据传输层->数据存储层->资源管理层->数据计算层->任务调度层->业务模型层
HDFS
架构概述
1
)
NameNode
(
nn
):存储文件的
元数据
,如
文件名,文件目录结构,文件属性
(生成时间、副本数、 文件权限),以及每个文件的
块列表
和
块所在的
DataNode
等。
2
)
DataNode(dn)
:在本地文件系统
存储文件块数据
,以及
块数据的校验和
。
3
)
Secondary NameNode(2nn)
:
每隔一段时间对
NameNode
元数据备份
。
YARN
架构概述
1
)
ResourceManager
(
RM
):整个集群资源(内存、
CPU
等)的老大
2
)
NodeManager
(
N M
):单个节点服务器资源老大
3
)
ApplicationMaster
(
AM
):单个任务运行的老大
4
)
Container
:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,
如内存、
CPU
、磁盘、网络等
。

集群部署规划
注意:
➢ NameNode 和
SecondaryNameNode
不要安装在同一台服务器
➢ ResourceManager 也很消耗内存,不要和
NameNode
、
SecondaryNameNode
配置在
同一台机器上。
