Hive的安装及集成Tez为执行引擎

HIVE3配置教程：MySQL连接、JDBC设置与Tez集成

原创已于 2023-12-04 19:52:22 修改 · 3.7k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#hive #数据仓库

于 2023-11-29 15:11:00 首次发布

HIVE3 配置文档

注意：

① 要求Hadoop必须是可用的（非HA）

② 要求Mysql能够链接

1.上传文件并解压重命名

tar -zxvf apache-hive-3.1.2-bin.tar.gz

mv apache-hive-3.1.2-bin hive-3.1.2

2.配置环境变量

vim /etc/profile

export HIVE_HOME=/usr/local/soft/hive-3.1.2
export PATH=$HIVE_HOME/bin:$PATH

# source一下让环境变量生效
source /etc/profile

3.配置HIVE相关配置文件

cd /usr/local/soft/hive-3.1.2/conf
vim hive-site.xml

添加如下内容：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- jdbc连接的URL -->
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://master:3306/hive?useSSL=false</value>
</property>

    <!-- jdbc连接的Driver-->
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
</property>

	<!-- jdbc连接的username-->
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>

    <!-- jdbc连接的password -->
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
</property>

    <!-- Hive默认在HDFS的工作目录 -->
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>
    
   <!-- Hive元数据存储的验证 -->
    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>
   
    <!-- 元数据存储授权  -->
    <property>
        <name>hive.metastore.event.db.notification.api.auth</name>
        <value>false</value>
    </property>
</configuration>

上传Mysql驱动到HIVE的lib目录下
在Mysql中创建hive数据库并设置其字符集为utf8排序规则为utf8_general_ci
错误及解决方式

Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)
V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:1338)
at org.apache.hadoop.mapred.JobConf.setJar(JobConf.java:518)
at org.apache.hadoop.mapred.JobConf.setJarByClass(JobConf.java:536)
at org.apache.hadoop.mapred.JobConf.(JobConf.java:430)
at org.apache.hadoop.hive.conf.HiveConf.initialize(HiveConf.java:5141)
at org.apache.hadoop.hive.conf.HiveConf.(HiveConf.java:5104)
at org.apache.hive.beeline.HiveSchemaTool.(HiveSchemaTool.java:96)
at org.apache.hive.beeline.HiveSchemaTool.main(HiveSchemaTool.java:1473)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.hadoop.util.RunJar.run(RunJar.java:318)
at org.apache.hadoop.util.RunJar.main(RunJar.java:232)

如果遇到如上错误，那么需要执行如下命令：
```
cp /usr/local/soft/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar $HIVE_HOME/lib/

rm -rf $HIVE_HOME/lib/guava-19.0.jar
```

初始化hive元数据库

schematool -initSchema -dbType mysql -verbose

启动hive

hive

测试HIVE

create database test;
use test;
create table tbl(id int,name String);
insert into table tbl values(1,'zhangsan'),(2,'lisi');
select * from tbl;

HIVE配置元数据及JDBC模式

在hive-site.xml中添加如下：

<!-- 指定存储元数据要连接的地址 -->
    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://master:9083</value>
    </property>    

<!-- 指定hiveserver2连接的host -->
    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>master</value>
    </property>

    <!-- 指定hiveserver2连接的端口号 -->
    <property>
        <name>hive.server2.thrift.port</name>
        <value>10000</value>
    </property>

在Hadoop中的core-site.xml中添加如下：

    <property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
    </property>

将文件进行分发到从节点

scp core-site.xml node1:`pwd`
scp core-site.xml node2:`pwd`

重启hadoop

启动元数据服务

nohup hive --service metastore > $HIVE_HOME/metadata.log  2>1  &

如果遇到如下问题说明元数据服务没有启动

Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

启动HIVE Server2服务（JDBC）
```
nohup hive --service hiveserver2 > server2.log  2>1  &
```
等待出现4个ID后或者通过命令查看10000端口是否出现

连接HIVE

beeline -u jdbc:hive2://master:10000 -n root

…
…

集成Tez（可选）

Tez介绍：https://www.infoq.cn/article/apache-tez-saha-murthy

MR在hive2中已经被弃用了，推荐使用Tez或Spark作为执行引擎

1、编译

下载Tez源码并根据Hadoop版本进行

由于Tez官方所提供的安装包对某些Hadoop版本不支持，可采取手动编译方式

需准备好maven环境，手动编译难度较大

可参考https://tez.apache.org/install.html官方文档进行编译

若Hadoop为3.1.1版本，可直接使用所已经编译好的tez安装包：tez-0.10.2.tar.gz

2、上传并解压

# 将Tez安装包上传至任意位置，例如：放在/usr/local/soft/packages中
# 切换目录
cd /usr/local/soft/packages
# 创建解压后Tez存放的目录
mkdir /usr/local/soft/tez
# 将Tez解压到创建好的目录中
tar -zxvf tez-0.10.2.tar.gz -C /usr/local/soft/tez

3、将tez安装包上传至HDFS

# 在HDFS上创建目录
hdfs dfs -mkdir -p /user/tez/
# 上传安装包并重命名，这里不需要解压，直接上传即可
hdfs dfs -put tez-0.10.2.tar.gz /user/tez/tez.tar.gz

4、修改环境变量

vim /etc/profile

# 在最后加入一下内容
HADOOP_CLASSPATH=`hadoop classpath`
TEZ_HOME=/usr/local/soft/tez
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=$TEZ_HOME/*.jar:$TEZ_HOME/lib/*.jar
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH

5、增加tez-site.xml配置文件

# 切换到Hadoop的配置文件所在目录，一般将tez的配置文件也放在此位置
cd /usr/local/soft/hadoop-3.1.3/etc/hadoop
# 创建并编辑文件
vim tez-site.xml

# 加入以下内容
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
  <!-- 指定在hdfs上的tez包文件 -->
  <property>
    <name>tez.lib.uris</name>
    <value>hdfs://master:9000/user/tez/tez.tar.gz</value>
  </property>
</configuration>

6、修改Hadoop相关配置文件

Hadoop是分布式模式运行，配置修改完成之后记得分发并重启集群

yarn-site.xml 之前配置过无需配置

这里贴出完整配置文件，按需修改

主要是yarn.nodemanager.vmem-check-enabled以及yarn.nodemanager.pmem-check-enabled这两项配置

由于机器资源有限，故关闭对内存的检查，否则任务运行容易出现资源不够的问题

<?xml version="1.0"?>
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

mapred-site.xml

主要是修改mapreduce.framework.name配置的值

原本应该是yarn，现在改为yarn-tez，其他保持不变

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn-tez</value>
    </property>

capacity-scheduler.xml

主要调整一下容量调度中AM的资源占比，保证yarn中能同时运行多个任务

yarn.scheduler.capacity.maximum-am-resource-percent：AM能够使用的最大资源占比

原本为0.1，这里直接改为1，也可根据情况自行调整

不调整的话会导致Tez启动等待资源时间过长，进而影响整个HQL的查询时间
```
  <property>
    <name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
    <value>1</value>
    <description>
      Maximum percent of resources in the cluster which can be used to run
      application masters i.e. controls number of concurrent running
      applications.
    </description>
  </property>
```

分发配置文件

scp ./* node1:`pwd`
scp ./* node2:`pwd`

重启yarn

由于并未涉及到HDFS配置文件，故只需重启Yarn服务即可
```
stop-yarn.sh
start-yarn.sh
```

7、修改Hive配置文件

1、主要修改Hive执行引擎为Tez

2、由于资源有限，故还需设置Tez默认执行容器内存大小，否则Tez任务运行容易出现资源问题

3、hive.cli.tez.session.async：是否异步启动Tez会话，默认为true

建议禁止，否则在Tez会话启动前就进入了Hive命令行，容易导致任务首次执行不成功

如若开启，则需进入hive命令行速度会快一些，但成功执行HQL得等待Tez会话创建成功

# 切换目录
cd /usr/local/soft/hive-3.1.2/conf/
# 编辑hive-site.xml
vim hive-site.xml

# 增加下列配置，其他保持不变
  <property>
    <name>hive.execution.engine</name>
    <value>tez</value>
    <description>
      Expects one of [mr, tez, spark].
      Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
      remains the default engine for historical reasons, it is itself a historical engine
      and is deprecated in Hive 2 line. It may be removed without further warning.
    </description>
  </property>

  <property>
    <name>hive.tez.container.size</name>
    <value>1024</value>
    <description>By default Tez will spawn containers of the size of a mapper. This can be used to overwrite.</description>
  </property>

  <property>
    <name>hive.cli.tez.session.async</name>
    <value>false</value>
    <description>
      Whether to start Tez
      session in background when running CLI with Tez, allowing CLI to be available earlier.
    </description>
  </property>

8、解决log4j冲突问题

由于hadoop、hive、tez包中都包含了log4j的依赖，一起搭配使用会造成冲突

故只保留hadoop自带的即可，将hive、tez对应的jar包重命名即可

# 切换tez下的lib目录
cd /usr/local/soft/tez/lib
# 将log4j对应jar包进行重命名
mv slf4j-log4j12-1.7.25.jar slf4j-log4j12-1.7.25.jar.bak
mv slf4j-reload4j-1.7.36.jar slf4j-reload4j-1.7.36.jar.bak

9、启动Hive

切换Tez执行引擎后，hive启动以及HQL执行的日志较多，可参考前面第11步，将日志打印级别设为WARN或者ERROR

hive

10、验证Tez引擎

使用安装步骤第10步中test库下的students表进行查询验证

对比基于MR和Tez两种计算引擎的执行速度

11、控制打印日志级别

# 切换目录
cd /usr/local/soft/hive-3.1.2/conf
# 创建log4j默认配置文件并编辑
vim log4j.properties

# 加入一下内容，通过log4j.rootLogger可控制日志打印级别
log4j.rootLogger=WARN, CA
log4j.appender.CA=org.apache.log4j.ConsoleAppender
log4j.appender.CA.layout=org.apache.log4j.PatternLayout
log4j.appender.CA.layout.ConversionPattern=%-4r [%t] %-5p %c %x - %m%n

4 条评论

菜鸟菜鸟菜 2025.04.26
不行，别用了，报错了

尘世壹俗人 2024.11.09
hadoop 非HA？？？？
- 尘世壹俗人回复尘世壹俗人 2024.11.09
  java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V tez会话起不来，这个是我高可用hadoop的原因？？？

优快云-Ada助手 2023.12.01
这篇博客对于想要学习Hive安装和Tez执行引擎集成的读者来说，提供了非常有用的信息和指导。希望作者能够继续分享更多关于大数据领域的知识和经验。除了已经提到的配置和日志级别设置，我认为对于初学者来说，了解一些关于Hadoop生态系统的其他组件如HDFS、MapReduce等也会很有帮助。另外，深入了解YARN的工作原理以及如何调优集群性能也是非常重要的技能。期待作者未来的博文能够继续深入探讨这些内容。感谢作者的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2