Hive 命令行的常用配置和编程

最新推荐文章于 2025-06-04 13:27:52 发布

程序世界航海

最新推荐文章于 2025-06-04 13:27:52 发布

阅读量118

点赞数

CC 4.0 BY-SA版权

文章标签： hive hadoop 数据仓库编程

本文链接：https://blog.youkuaiyun.com/DevPulse/article/details/132905151

编程专栏收录该内容

433 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何优化Hive命令行的配置，包括设置Tez为执行引擎、启用向量化查询和动态分区排序等，以提升查询效率。此外，还展示了编写Hive脚本和使用变量参数的方法，以及数据的导入导出操作。

Hive 命令行的常用配置和编程

Hive 是一个基于 Hadoop 的数据仓库基础设施，它提供了一个方便的 SQL 接口来查询和分析大规模数据。在使用 Hive 命令行进行数据处理和编程时，有一些常用的配置选项和技巧可以帮助提高效率。本文将介绍一些常用的 Hive 命令行配置和编程技巧，并提供相应的源代码示例。

配置 Hive 命令行参数

在使用 Hive 命令行之前，可以通过设置一些配置参数来优化命令行的行为。以下是一些常用的配置选项：

set hive.execution.engine=tez;：将执行引擎设置为 Tez，以提高查询性能。
set hive.vectorized.execution.enabled=true;：启用向量化查询执行，以提高查询速度。
set hive.auto.convert.join=true;：自动将 MapJoin 转换为更高效的 Join 算法。
set hive.optimize.sort.dynamic.partition=true;：启用动态分区排序优化，提高分区表的查询性能。
set hive.exec.compress.output=true;：启用输出压缩以减少存储空间占用。

可以在 Hive 命令行中使用上述配置选项来设置相关参数，例如：

hive> set hive.execution.engine=tez;
hive> se

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序世界航海

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

大数据运维技术第6章 Hive组件安装配置课件.pptx

06-22

Hive将结构化的数据文件映射成数据库表，使得用户可以通过类似于SQL的查询语言Hive SQL（HQL）进行数据分析，而无需深入理解底层的MapReduce编程模型。 Hive的优势在于它的易用性和可扩展性。对于不熟悉MapReduce的...

Hive从入门到精通（5）—— Hive客户端和Beeline命令行的基本使用

shangjg3的博客

10-26

1561

由于 HiveServer2 是 Hive 开发维护的重点 (Hive0.15 后就不再支持 hiveserver)，所以 Hive CLI 已经不推荐使用了，官方更加推荐使用 Beeline。方式二为在启动命令行 (Hive CLI / Beeline) 的时候使用 `--hiveconf` 指定配置，这种方式指定的配置作用于整个 Session。在不进入交互式命令行的情况下，可以使用 `hive -e ` 执行 SQL 命令。在 Hive CLI 中支持的参数，Beeline 都支持，常用的参数如下。

参与评论您还未登录，请先登录后发表或查看评论

设置hive执行引擎为Tez

破晓的成长之路

10-20

9302

我们知道hive默认计算引擎为MR，而MR的特性决定了它的运算速度并不是太让人满意。在此将其运算引擎修改为Tez（当然在此需要先安装Tez），Tez基于内存的计算使得hive可以有更高的运算效率。安装配置如下：在此假设已经安装好基础hadoop、hive集群。 Tez下载解压 1、下载tez的依赖包：http://tez.apache.org 2、解压缩apache-tez-0.9.1-bin...

Hive引擎替换为tez

NoclimbMonkey的博客

04-08

1427

Hive引擎替换为tez Hive的默认计算引擎是MR,但是mapreduce的速度实在是很慢,所以我们考虑将计算引擎更换为tez 安装环境: Hadoop-2.7.4 hive-2.3.6 具体版本根据自己实际情况来首先tez下载:tez版本请参考官网,我这里是下载的0.9.1 这需要jdk8或更高版本,还有maven3或更高版本 https://mirrors.tuna.tsinghua.e...

优化Hive查询性能

fengfengzai0101的博客

11-27

932

使用Tez加速执行 Apache Tez是一种执行引擎，增加查询速度1到3倍开启Tez执行引擎 set hive.execution.engine=tez; 如果使用Cloudera/Hortonworks，在Hive查询编辑器中有TEZ选项。开启压缩压缩技术减少数据传输量，所以会减少mappers和reducers之间的数据传输量，最好在mapper和reducer中分别单独进行压缩操作...

如何提升Hive查询性能:Hive on taz解决方案

最近开始研究AIGC领域技术，欢迎交流

03-21

1019

Hive on Tez是一种基于Apache Hadoop的数据仓库解决方案，它使用Tez作为执行引擎来优化查询性能。通过设置以上参数，可以使Hive on Tez更好地利用集群资源，从而提高查询性能。

hive大小文件合并

KANGBboy的博客

09-28

4539

hive -e “set tez.queue.name=usershell; 启用哪个队列 set hive.execution.engine=tez; 启用引擎 set hive.merge.tezfiles=true; 开启合并 set hive.merge.smallfiles.avgsize=16000000; 文件合并标准（低于16000000kb进行合并） set hive.merge.size.per.task=128000000;文件合并大小（最终文件大于128000000后，停止合并，合

Mac上的Hive安装和配置

amberwest

09-17

1102

懒人安装Hive大法，踩了n多坑... 1、安装Hadoop 因为Hadoop对伪程序猿（Java学的不够好）不友好，所以通过Hive来启动MapReduce任务，简单好上手。《Hive编程指南》是这么说的： Hive所有命令和查询都会进入Driver（驱动模块），通过该模块对输入进行解析编译，对需求的计算进行优化，然后按照指定的步骤执行（通常是启动多个MapReduce的job来执行）。当需要启动MapReduce任务（job）时，Hive本身是不会生成JavaMapReduce算法程序。相反，.

Hive切换引擎(MR、Tez、Spark)

kc44601的博客

02-19

1876

hive切换计算引擎 mr tez spark

设置hive执行引擎

ViaNnAljj的博客

01-28

5582

1、mapreduce计算引擎(默认) set hive.execution.engine=mr; 2、Tez计算引擎 set hive.execution.engine=Tez;

hive: 优化配置及bug查询路径

皮皮blog

02-07

2352

mapper数量与输入文件的split数息息相关，在Hadoop源码org.apache.hadoop.mapreduce.lib.input.FileInputFormat类中可以看到split划分的具体逻辑。如果想增大mapper数，除了降低mapred.min.split.size之外，也可以调高mapred.map.tasks。参数mapred.min.split.size（默认值1B）和mapred.max.split.size（默认值64MB）分别用来指定split的最小和最大大小。

Hive终极性能优化指南：从原理到实战

热门推荐

欢迎来到我的博客，一起探索代码里的世界！

07-17

2万+

如何提高Hive 的查询性能？ Apache Hive是一种强大的数据分析工具。在处理数PB的数据时，了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的，如有不足之处，望指出。 1、使用Tez引擎 Apache Tez Engine是一个可扩展的框架，用于构建高性能批处理和交互式数据处理。它由YARN在Hadoop中调度。Tez通过提高处理速度和保持MapRedu...

Hive on Tez 参数调优

liuwei063608的专栏

06-06

3974

Hive on Tez 调优一、配置参数调优 1、开启ORC表向量化执行： 向量化查询执行通过一次处理一个 1024 行的块来大幅提高IO效率（必须以ORC格式存储数据） set hive.vectorized.execution.enabled = true; set hive.vectorized.execution.reduce.enabled = true; – 当前环境hive版本暂不支持 2、优化ORC表谓词下推根据ORC表的特性尽早过滤数据，提高执行效率 ...

java设置hive执行引擎_7 Hive—基础—执行引擎详解

weixin_29138345的博客

02-28

1078

[TOC]文章全部同步至Github，Github仓库地址Hive 执行引擎前面我们已经搭建起了Hive 的基础环境，每次当你使用客户端的时候，你就会看到这样的一串日志,提示我们不要再使用MR 去执行hive sql 了Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consid...

hive on tez安装

刘光华的专栏

08-18

6914

版本：hadoop2.7.2+hive1.2.1+tez0.8.4 1.下载tez src 解压并编译，最好用非root用户，有可能有些资源下载不下来，需要翻墙。。。orz。。。 mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true 2.编译成功后，在tez-dist/target目录下，能够发现如

Hive编程技巧与实践指南

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库...总之，Hive编程指南为使用Hive进行数据仓库构建和数据分析提供了详细的操作方法和技巧，是数据工程师和数据分析师不可多得的参考资料。