CDH配置（Zookeeper，HADOOP，Hive）

最新推荐文章于 2024-06-12 09:11:02 发布

H_Hao

最新推荐文章于 2024-06-12 09:11:02 发布

阅读量5k

点赞数

分类专栏：笔记大数据学习

本文链接：https://blog.youkuaiyun.com/haoyuexihuai/article/details/53412583

版权

笔记同时被 2 个专栏收录

103 篇文章

订阅专栏

大数据学习

45 篇文章

订阅专栏

本文详细介绍了一个包含Zookeeper、Hadoop及Hive的大数据环境搭建流程，涵盖了从软件安装到配置的各项细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一步：ZOOKEEPER（多台机器，时间同步）
1. 在/opt下创建chd目录：sudo mkdir cdh-5.3.6
2. 更改所属用户与用户组：sudo chown beifeng:beifeng /opt/*
3. 上传文件到/opt/software目录下：zookeeper-3.4.5-cdh5.3.6.tar，hadoop-2.5.0-cdh5.3.6.tar，hive-0.13.1-cdh5.3.6.tar，sqoop-1.4.5-cdh5.3.6.tar
4. 解压：
```
tar -zxf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/
tar -zxf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/
tar -zxf zookeeper-3.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/
```
5. 配置伪分布式zookeeper
  之前配置分布式的步骤博客：
  http://blog.youkuaiyun.com/haoyuexihuai/article/details/53080133
6. conf目录下 zoo.cfg 配置数据路径：dataDir=/opt/cdh-5.3.6/zookeeper-3.4.5-cdh5.3.6/datas
7. 启动并查看zookeeper

第二步：HADOOP
这里写图片描述

HDFS

hadoop-env.sh
配置export JAVA_HOME=/opt/modules/jdk1.7.0_67

core-site.xml

<!-- 指定 namenode 主节点所在的位置以及交互端口号. -->
<property> 
    <name>fs.defaultFS</name> 
    <value>hdfs://hadoop-senior01.ibeifeng.com:8020</value> 
</property>
<!-- 更改 hadoop.tmp.dir 的默认临时目录路径. -->
<property> 
    <name>hadoop.tmp.dir</name> 
    <value>/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/data</value> 
</property>

hdfs-site.xml

<!-- 指定副本个数. -->
<property> 
    <name>dfs.replication</name> 
    <value>1</value> 
</property>
<!-- 设置不启用 HDFS 文件系统的权限检查. 由于是测试环境，所以关掉-->
<property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
</property>

配置完之后格式化： bin/hdfs namenode –format

启动进程

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

打开页面：http://hadoop-senior01.ibeifeng.com:50070/
HDFS操作，创建数据仓库
1. 创建两个目录/tmp 与 /user/hive/warehouse
  bin/hdfs dfs -mkdir -p /user/hive/warehouse
2. 赋予权限
```
bin/hdfs dfs -chmod g+w /tmp
bin/hdfs dfs -chmod g+w /user/hive/warehouse
```
配置native

YARN

yarn-env.sh
配置export JAVA_HOME=/opt/modules/jdk1.7.0_67

yarn-site.xml

<!-- 配置resourcemanager在哪台电脑运行 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-senior01.ibeifeng.com</value>
</property>
<!-- 设置reduce的获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!-- 指定是否开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志在 HDFS 上保留的时间期限 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>106800</value>
</property>

启动进程

sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

打开页面：http://hadoop-senior01.ibeifeng.com:8088

MAPREDUCE

mapred-env.sh
配置：export JAVA_HOME=/opt/modules/jdk1.7.0_67

mapred-site.xml.template -》 mapred -site.xml

<!-- 指定 MapReduce 运行在 YARN 上. -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!-- 配置 JobhistoryServer 历史服务器. -->
<property> 
    <name>mapreduce.jobhistory.address</name> 
    <value>hadoop-senior01.ibeifeng.com:10020</value> 
</property> 
<property> 
    <name>mapreduce.jobhistory.webapp.address</name> 
    <value>hadoop-senior01.ibeifeng.com:19888</value> 
</property>

启动进程：sbin/mr-jobhistory-daemon.sh start historyserver

第三步：HIVE配置
博客：http://blog.youkuaiyun.com/haoyuexihuai/article/details/53290274

hive-env.sh.template，将template去掉

HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6
export HIVE_CONF_DIR=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf

hive-site.xml

<!--指定连接MySQL的主机以及端口号和数据库名称-->
   <property>
     <name>javax.jdo.option.ConnectionURL</name>
     <value>jdbc:mysql://hadoop-senior01.ibeifeng.com:3306/cdhmetastore?createDatabaseIfNotExist=true</value>
   </property>
   <!--指定MySQL驱动-->
   <property>
     <name>javax.jdo.option.ConnectionDriverName</name>
     <value>com.mysql.jdbc.Driver</value>
   </property>
   <!--指定连接MySQL的用户名和密码-->
   <property>
     <name>javax.jdo.option.ConnectionUserName</name>
     <value>root</value>
   </property>
   <property>
     <name>javax.jdo.option.ConnectionPassword</name>
     <value>123456</value>
   </property>
<!--显示当前数据以及表头列名--> 
<property> 
    <name>hive.cli.print.header</name> 
    <value>true</value> 
</property> 
<property> 
    <name>hive.cli.print.current.db</name> 
    <value>true</value> 
</property>
<!--Hive作为服务启动--> 
<property>
  <name>hive.server2.thrift.port</name>
  <value>10000</value>
</property>
<property>
  <name>hive.server2.thrift.bind.host</name>
  <value>hadoop-senior01.ibeifeng.com</value>
</property>

复制mysql的驱动到hive下

cp -r mysql-connector-java-5.1.27-bin.jar /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/lib/

配置hive-log4j.properties 日志目录
在hive下先创建logs目录

hive.root.logger=INFO,DRFA
hive.log.dir=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs