备忘录:为查询和总结记录。
记录:NO.223
本例环境:
操作系统:CentOS-7-x86_64-DVD-1908
JDK版本:jdk-8u251-linux-x64
Hadoop版本:hadoop-2.9.2
远程连接工具:SecureCRT 8.0
官网地址:https://hadoop.apache.org/
官网文档地址:https://hadoop.apache.org/docs
官网下载地址:https://archive.apache.org/dist/hadoop/common/
1.Hadoop
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2.Hadoop存在
解决海量存储和海量数据的分析计算。
3.Google大数据3大篇论文
GFS: The Google File System.
MapReduce: MapReduce_Simplified Data Processing on Large Clusters.
BigTable: Bigtable_A Distributed Storage System for Structured Data.
4.Hadoop发行版本
Apache Hadoop: https://hadoop.apache.org/
Cloudera Hadoop,简称CDH: https://www.cloudera.com/
2018年10月,均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。
5.Hadoop1.x、Hadoop2.x、Hadoop3.x的Modules区别
Hadoop1.x:
Hadoop Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)。
Hadoop2.x:
Hadoop Common(辅助工具)、HDFS(数据存储)、YARN(资源调度)、MapReduce(计算)。
Hadoop3.x:
Hadoop Common(辅助工具)、HDFS(数据存储)、YARN(资源调度)、MapReduce(计算)、Hadoop Ozone(对象存储)。
名词:
Hadoop Common: The common utilities that support the other Hadoop modules.
HDFS(Hadoop Distributed File System):A distributed file system that provides high-throughput access to application data.
Hadoop YARN:A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Hadoop Ozone: An object store for Hadoop.(Hadoop3.x)
6.HDFS基础架构
NameNode:存储文件的元文件。
DataNode:在本地文件系统存储文件块数据,以及数据的校验和。
Secondary NameNode:监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。
7.YARN基础架构
ResourceManager: 处理客户端请求、监控NodeManager、启动和监控ApplicationMaster、资源分配与调度。
NodeManager:管理单个节点上资源、处理ResourceManager发送来的命令、处理ApplicationMaster发送来的命令。
ApplicationMaster:负责数据切分、为应用程序申请资源并分配内部任务、任务的监控与容错。
Container: YARN中的资源抽象 ,封装某个节点的多维资源调度。有点类似Docker容器一样。
8.MapReduce基础架构
计算阶段:
Map阶段:并行处理输入数据。即必须有数据输入。
Reduce阶段:对Map阶段结果进行汇总,并输出结果。即有结果输出。
......
以上,感谢。
Hadoop基础积累(hadoop-2.9.2)
最新推荐文章于 2021-10-26 10:43:19 发布