轻松学Hadoop系列之 - 理清CDH Hadoop集群安装流程

这篇博客详细解析了CDH的四种安装方式,重点介绍了推荐的Parcel离线安装方法,强调其集成性、版本匹配和易于管理的优势。CDH安装流程分为准备工作、Cloudera Manager安装和Hadoop组件安装三个独立阶段。 Parcel文件可从Cloudera网站下载、放入CM本地目录或设置HTTPD本地源。理解这些步骤将使CDH安装变得清晰易懂。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. CDH的安装方式介绍
  CDH的官方安装文档提供了几种安装方式,每种安装方式的后面虽然提供了详细步骤,但引用跳转较多,对初学者来说,很快就晕了,最主要困难是什么?英文!英文!英文!,这对很多英文不好的同学就更加难上加难了。所以作为第二篇博客,我们就先来理清一下CDH的安装流程。首先我们来看一下,CDH支持的几种安装方式 :
  1. 完全的在线安装,这种安装方式需要网络的支持
  2. 使用Tarball的安装方式
  3. 使用RPM, YUM的安装方式,这种安装方式实际也是需要网络支持的。
  4. 使用Parcel的离线安装方式
  实际上官方是建议使用Parcel的安装方式的,而第1,3种方式是只建议用于练手或测试环境的。Parcel是一个二进制的安装包,它不仅包含了程序安装文件,而且还包含了Cloudera Manager需要使用的元数据。Parcel的安装具有如下的特点和好处:
   1. 将所有的Hadoop组件集成在了一个安装包
   2. 所有的Parcel内部Hadoop组件版本都是匹配的,消除了版本不匹配的隐患
   3. 可以安装在/usr目录之外,且不需要sudo命令
   4. 具有多版本并行安装的能力,这就可以保证在集群升级前提前发布一个新版本,减少集群升级时间
   5. 小版本的滚动升级和自动升级管理和操作,以及快速回滚
  
2. 理清CDH的安装流程
  接下来看一下CDH集群的第4种安装方式的安装步骤,以下安装步骤是我整理的安装文档中的目录,这些目录中的每一步操作在网上都能一抓一大把了,所以这里不再贴出详细内容,如有需要的再请联系我.

    1.  安装介绍
    2.  下载所需安装文件
    3.  确认主机安装环境
    4.  规划集群部署
    5.  修改主机名
    6.  更改主机HOSTS映射文件
    7.  检查主机服务
    8.  检查主机NTP服务配置
    9.  检查主机参数配置
    10. 确认Python环境
    11. 安装依赖包
    12. 安装集群所需配置数据库并创建用户和数据库
    13. 创建所需系统用户
    14. 创建目录
    15. 安装Clouder Manger
    16. 安装JDK
    17. 初始化CM 的配置数据库(只在CM Server上执行)
    18. 配置Clouder Managerp Agent
    19. 移动Parcel文件到指标目录(只在CM Server上执行)
    20. 启动CM Server/ Agent
    21. 登陆CM Server完成集群安装
    22. CDH集群安装检查

  这儿的安装步骤很多, 可能很多人看到头都大了, 客观别急, 看了后面的介绍,你将对CDH的安装有非常清晰的认识,拨开云雾看清天,透过现相看本质,实际上CDH的安装我们可以分解为三部分:

  • 准备工作
  • Clouder Manager的安装
  • Hadoop组件的安装

  而这三部分中, 每一个阶段的安装, 其实都是独立的, 比如:
  1. 首先 可以使用Yum, Rpm, Tarball包的任意一种方式安装Clouder manager.
  2. Clouder manager安装成功后, 在CM在安装界面上也可以使用Tarball, Parcel的任意方式来安装Hadoop组件.
  那么CDH的整个安装流程, 可以使用以下的表格来清晰的表达:

安装流程操作步骤或方式
集群规划1.硬件配置、存储检查
2.服务器系统环境检查
3.集群部署规划
环境准备工作1.主机名确认和修改
2.更改主机HOSTS映射文件
3.检查主机服务
4.检查主机NTP服务配置
5.检查主机参数配置
6.确认Python环境
7.安装依赖包
8.创建用户和目录
依赖软件安装1.确认Python环境
2.安装JDK
3.安装配置数据库并初始化(支持Oracle, Postgresql, Mysql)
Clouder Manager安装1.可以使用Yum在线安装、Rpm软件包安装、Tarball直接解压
2.配置Agent config.ini
Hadoop组件安装1.可以使用Tarball软件包安装、Parcel包安装或直接在线下载包安装

3.Parcel文件的放置位置
  在CM平台安装Hadoop的时候, Parcel(Tarball文件一样的)的文件可以放在以下的位置:
  1.如果服务器网络畅通,网速很快,那可以直接让CM自动在Cloudera网站上下载文件,然后安装
  2.将Parcel文件放在CM的默认本地目录:/opt/cloudera/parcel-repo,此处特别注意:CM程序默认每1小时,扫描一次该目录,如果你是在CM Server启动之后放进去的,那么不等1小时,是在安装界面看不到该安装包的,最直接的方式是直接重启CM Server.
  3.创建一个Httpd服务,制做为本地源,让CM通过此源自动下载安装(跟第1种在线下载一样的,其它软件也可以通过制做这种本地源下载安装),步骤为:
    a.安装httpd服务: yum install httpd(或手动使用rpm包安装)
    b.启动httpd服务: service httpd start
    c.将parcel和maifest.json文件放到web server目录并授权,如:

       # mkdir /var/www/html/cdh5.5
       # mv CDH-5.5.0-1.cdh5.5.0.p0.8-el6.parcel /var/www/html/cdh5.5
       # mv manifest.json /var/www/html/cdh5.5
       # chmod -R ugo+rX /var/www/html/cdh5.5

    接下来就可以访问http://hostname:80/cdh5.5/进行验证并在CM安装时设置使用该源进行安装了
        

// cluster1 上 将zookeeper 解压到/usr/local 目录下,配置环境变量 # vi /etc/profile // 添加以下内容 export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.6 export PATH=$ZOOKEEPER_HOME/bin:$PATH # cd /usr/local/zookeeper-3.4.6 // 在 conf 中新建zoo.cfg 文件 # vi conf/zoo.cfg // 输入以下内容 # 客户端心跳时间(毫秒) tickTime=2000 # 允许心跳间隔的最大时间 initLimit=10 # 同步时限 syncLimit=5 # 数据存储目录 dataDir=/home/hadoop_files/hadoop_data/zookeeper # 数据日志存储目录 dataLogDir=/home/hadoop_files/hadoop_logs/zookeeper/dataLog # 端口号 clientPort=2181 # 集群节点和服务端口配置 server.1=cluster1:2888:3888 server.2=cluster2:2888:3888 server.3=cluster3:2888:3888 // 创建 zookeeper 的数据存储目录和日志存储目录 14 大数据技术课程笔记本虚拟机搭建Hadoop集群操作文档 # mkdir -p /home/hadoop_files/hadoop_data/zookeeper # mkdir -p /home/hadoop_files/hadoop_logs/zookeeper/dataLog # mkdir -p /home/hadoop_files/hadoop_logs/zookeeper/logs // 修改文件夹的权限 # chown -R hadoop:hadoop /home/hadoop_files # chown -R hadoop:hadoop /usr/local/zookeeper-3.4.6 // 在 cluster1 号服务器的 data 目录中创建一个文件myid,输入内容为1 // myid 应与zoo.cfg 中的集群节点相匹配 # echo "1" >> /home/hadoop_files/hadoop_data/zookeeper/myid // 修改 zookeeper 的日志输出路径(注意CDH版与原生版配置文件不同) # vi bin/zkEnv.sh // 将配置文件里面的以下项替换为红字的内容 if [ "x${ZOO_LOG_DIR}" = "x" ] then ZOO_LOG_DIR="/home/hadoop_files/hadoop_logs/zookeeper/logs" fi if [ "x${ZOO_LOG4J_PROP}" = "x" ] then ZOO_LOG4J_PROP="INFO,ROLLINGFILE" fi // 修改 zookeeper 的日志配置文件 # vi conf/log4j.properties // 修改为以下内容: zookeeper.root.logger=INFO,ROLLINGFILE log4j.appender.ROLLINGFILE=org.apache.log4j.DailyRollingFileAppender 将这个zookeeper-3.4.6 的目录复制到其他的两个节点上 # scp -r /usr/local/zookeeper-3.4.6 cluster2:/usr/local/ # scp -r /usr/local/zookeeper-3.4.6 cluster3:/usr/local/ // 退回 hadoop 用户 # exit // 刷新环境变量 $ source /etc/profile 完成了这些操作,启动时出现了JMX enabled by default Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg Starting zookeeper ... /usr/local/zookeeper-3.4.6/bin/zkServer.sh: line 113: /home/hadoop_er.pid: Permission denied FAILED TO WRITE PID
03-24
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值