什么是Hadoop,从狭义来讲就是Apache一款开源的软件,一个大数据分析处理平台。包含三大组件有HDFS(分布式文件系统),MapReduce(分布式计算框架),YARN(集群资源管理和任务调度)。从广义上讲Hadoop指的是Hadoop生态圈,即提供了采集,存储,导入,分析,挖掘,可视化等所有的软件。
那么Hadoop有和优良的特性使得它备受人们欢迎呢。首先就是分布式的、可拓展的、低成本的、可靠的等一系列有点。众所周知,既然是大数据那么数据量肯定非常大,一般的机器存不了,此时分布式的好处就来了,既然几台机器存不下,那就用多台机器进行存储,并且机器可以是普通的服务器组成的集群,性比价低。再者由于其存储的方式不同,所以对数据的保护性很高,不用担心数据遗失或者损坏等问题。
既然知道了什么叫Hadoop,那么接下来就讲下它具体有什么角色。通常有HDFS和YARN集群组成(连个集群逻辑上分离,物理上是在一起的),两个集群都是标准的主从架构。
HDFS集群,它解决了海量数据存储问题,是一个分布式文件存储系统。具体有
- 主角色:namenode
- 从角色:DataNode
- 辅助角色:SecondaryNamenode
YARN集群,集群资源的管理和任务调度。主要角色有
- 主角色:Resourcemanager
- 从角色:Nodemanager
Hadoop是一个开源的分布式大数据分析平台,包括HDFS、MapReduce和YARN组件。它提供分布式、可扩展、成本效益高的数据存储和处理解决方案,确保数据可靠性。HDFS由namenode和DataNode组成,负责数据存储;YARN则负责资源管理和任务调度,由Resourcemanager和Nodemanager构成。Hadoop因其分布式特性和高可靠性在大数据领域备受青睐。
5064

被折叠的 条评论
为什么被折叠?



