官网:
hadoop.apache.org
project.apache.org
源码地址:
https://github.com/apache/hadoop
https://github.com/apache/project
1.hadoop:分布式文件存储系统
广义:hadoop为主的生态圈(sqoophive、spark、flink、cdh)
狭义:hadoop本身
2.hadoop组成:
hdfs 数据存储 hbase、kudu、
yarn 资源(cpu、mem)和作业的调度 就剩yarn 【任务调度框架 有区别的】
mapreudce 数据计算的框架【生产上不用】 设计理念指导其他框架 (hive、spark、flink)
3.hadoop版本: 学习: apache (主要)、cdh (体验)
(1)apache :【公司自己搭建比较少、云服务器】
2.x
3.x
(2)cdh 【偏多、部署和管理方便 】
cdh5.x cdh6.x
(3)hdp
(4)部署:
伪分布式【单点】
完全分布式【三台】【不配ha】
部署什么东西?【大部分软件都是主从架构】
1)数据存储:hdfs
namenode
datanode
seconderynamenode
2)资源分配和任务调度: yarn
resourcemanager
nodemanager