1.1原生Hadoop的问题
- 版本管理过于混乱
- 部署过程较为繁琐,升级难度较大
- 兼容性差
- 安全性低
1.2CDH和CM(Cloudera Manager)
- CDH(Cloudera’s Distribution Including Apache Hadoop),是Hadoop众多分中的一种,由Cloudera公司维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可以直接用于生产环境。就是Hadoop等大数据安装包的第三方版本的集合,提供了Hadoop等大数据服务的安装包。
- CM(Cloudera Manager)提供了一个管理和监控Hadoop等大数据服务的web界面,能让我们方便安装大数据生态圈的大部分服务。
1.3Hadoop自动化部署和管理平台
主流的有Apache Ambari和Cloudera Manager,相对应的Hadoop的发行版为HDP和CDH。这种自动化部署平台的功能一般如下:
- 提供Hadoop大数据集群
- 管理Hadoop大数据集群
- 监控Hadoop大数据集群
PS:HDP的公司(hortonworks)已经被CDH公司(Cloudera)收购了
1.4Cloudera Manager架构
- Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。核心
- Agent:安装在每台主机上。负责启动和停止进程,配置,监控主机。
- Management Service:由一组执行各种监控,警报和报告功能角色的服务。图表的生成和管理
- Database:存储配置和监视信息。
- Cloudera Repository:软件由Cloudera 管理分布存储库。(有点类似Maven的中心仓库);在线安装(从中心仓库拉取)和离线安装(离线库)
- Clients:是用于与服务器进行交互的接口(API和Admin Console)
1.5CDH下载
官方下载地址:https://archive.cloudera.com
- CM下载
https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/
- CDH下载
https://archive.cloudera.com/cdh6/6.3.2/parcels/
注意:CDH的版本一定要和CM的版本对应
2.环境准备
使用VMware模拟多台主机,由于主机条件有限,只演示三台机器,配置如下:
主机名 |
系统 |
IP |
内存 |
磁盘 |
cdh-1 |
Centos7 |
192.168.100.10 |
4G |
60G |
cdh-2 |
Centos7 |
192.168.100.20 |
2G |
60G |
cdh-3 |
Centos7 |
192.168.100.30 |
2G |
60G < |