大数据平台 hive 部署

本文详细介绍了如何在大数据平台环境下部署Hive,包括解压Hive包,配置环境变量,解决jar冲突,内嵌模式部署(使用Derby元数据库)和本地+数据库模式部署(与MySQL集成)。步骤涵盖了从前期准备到Hive元数据管理的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据平台 hive 部署

平台部署知识
文章讲解了 hive 的安装与部署 需要 Hadoop 以及 MySQL。

目录

前期准备

在这里我们需要将 hive 的包下载下来,这边我们使用的就是 hive 的 3.1.2 版本,各位小伙伴可以先下载这个版本的压缩包,另外还需要注意,hive 依赖 Hadoop 平台,它会将数据存储到 HDFS 中,计算任务运行在 YARN 资源调度集群,所以我们需要先参照 《大数据平台中 Hadoop 部署》 文章来将 Hadoop 部署起来!

hive官网:https://hive.apache.org/

解压 hive 包

然后我们需要将 hive 解压到一个目录中,这里就是 hive 的安装目录了,下面是笔者解压之后的目录展示。

root@liming-virtual-machine:/opt/software/apache-hive-3.1.2-bin# ll
total 84
drwxr-xr-x 10 root root   4096  3月 14  2023 ./
drwxrwxrwx 13 root root   4096  2月 29 17:32 ../
drwxr-xr-x  3 root root   4096  3月 14  2023 bin/
drwxr-xr-x  2 root root   4096  3月 14  2023 binary-package-licenses/
drwxr-xr-x  2 root root   4096  3月 14  2023 conf/
drwxr-xr-x  4 root root   4096  3月 14  2023 examples/
drwxr-xr-x  7 root root   4096  3月 14  2023 hcatalog/
drwxr-xr-x  2 root root   4096  3月 14  2023 jdbc/
drwxr-xr-x  4 root root  16384  3月 14  2023 lib/
-rw-r--r--  1 root staff 20798  8月 23  2019 LICENSE
-rw-r--r--  1 root staff   230  8月 23  2019 NOTICE
-rw-r--r--  1 root staff  2469  8月 23  2019 RELEASE_NOTES.txt
drwxr-xr-x  4 root root   4096  3月 14  2023 scripts/
root@liming-virtual-machine:/opt/software/apache-hive-3.1.2-bin# 

配置 hive 的环境变量

我们需要打开 /etc/profile 文件并在文件的末尾追加下面的代码段这会配置好环境变量。

# 开始编辑环境变量
vim /etc/profile
# 下面是环境变量
export JAVA_HOME="/opt/software/jdk1.8.0_202"
export HADOOP_HOME="/opt/software/hadoop-3.2.1"
export HIVE_HOME="/opt/software/apache-hive-3.1.2-bin"
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HIVE_HOME}/bin:$PATH

解决 jar 冲突

# 解决日志冲突
mv $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.jar $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.bak
# 解决 HDFS 操作冲突
rm -rf ${HIVE_HOME}/lib/guava-19.0.jar
cp ${HADOOP_HOME}/share/hadoop/common/lib/guava-2
### 大数据平台 Hive 部署运维操作指南 #### 选择合适的环境配置 为了成功部署Hive,在准备阶段需确认所使用的操作系统版本满足最低需求,通常建议使用CentOS 6.5以上或Ubuntu 16.04以上的Linux发行版[^4]。 #### 安装必要的依赖项 确保安装了Java Development Kit (JDK),其版本应不低于1.8。此外,考虑到Hive与其他组件之间的交互,还需预先设置好Hadoop集群并验证其正常工作状态。对于Hadoop的要求是至少2.7及以上版本。 #### 下载并解压Hive包 获取适合当前系统的稳定版本的Apache Hive压缩文件,并将其放置于目标机器上的适当位置。接着执行如下命令来完成解压过程: ```bash tar -xzvf apache-hive-x.y.z-bin.tar.gz -C /opt/ ``` 这里`/opt/`代表的是自定义的目标目录路径;而`apache-hive-x.y.z-bin.tar.gz`则是下载下来的特定版本号对应的压缩包名称,请根据实际情况调整这两个参数。 #### 修改配置文件 进入刚刚创建好的hive主目录下的conf子目录内编辑hive-site.xml文档,添加如下所示的关键属性设定: ```xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>datanucleus.autoCreateSchema</name> <value>false</value> </property> <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> ``` 上述XML片段中的数据库连接字符串部分应当依据实际选用的关系型数据库产品及其所在主机地址做相应修改。如果采用MySQL作为元数据存储,则还需要提前准备好相应的驱动程序jar包并将之置于$HIVE_HOME/lib下。 #### 初始化Metastore表结构 当所有前期准备工作完成后,可以通过运行`schematool`工具来进行metastore schema初始化: ```bash schematool -dbType mysql -initSchema ``` 这条指令会读取之前配置过的hive-site.xml里的信息自动建立所需的内部表格体系。 #### 启动服务端口监听(HiveServer2) 为了让客户端能够远程访问hive server所提供的查询接口,需要启动HiveServer2进程: ```bash hiveserver2 & ``` 此时便可以在其他节点上利用Beeline CLI或者其他兼容的应用程序发起SQL请求了。 #### 日常维护事项 定期检查日志记录以监控性能表现和错误提示; 及时更新至最新安全补丁版本防止潜在漏洞风险; 合理规划磁盘空间分配避免因过度占用而导致的服务中断现象发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值