Hive是基于Hadoop的一种数据仓库,对查询和管理分布式存储中的超大数据集提供了很大帮助。正如绝大部分开源软件一样,Hive允许用户调整参数改变Hive的默认行为。用户可以使用下面三种方法中的任意一种对Hive进行配置管理:
- 在Hive的CLI(命令行接口)使用set命令在会话层级为后续语句设置参数值,比如:set hive.exec.scratchdir=/tmp/mydir,将后续语句的临时目录(该目录用于存储Hive的临时输出和计划)设置为/tmp/mydir。
- 使用--hiveconf选项为整个会话设置参数,比如:bin/hive --hiveconfhive.exec.scratchdir=/tmp/mydir,这样在启动hive后,在CLI中执行的所有语句的临时目录都为=/tmp/mydir。
- 最后一种(也是本人最喜欢的一种,一劳永逸)是修改hive-site.xml文件,该方式的作用范围较上述两种方式都要大,用于为整个Hive的配置管理设置参数值,意思是每次启动hive时其参数值都是不变的。比如:
<property>
<name>hive.exec.scratchdir</name>

本文介绍了Hive作为基于Hadoop的数据仓库如何进行配置管理,包括通过CLI的set命令、--hiveconf选项以及修改hive-site.xml文件来设置参数。内容涵盖Hive管理参数、元存储管理参数、与Hadoop交互的参数以及运行时信息参数,强调了理解和实践Hive配置的重要性。
订阅专栏 解锁全文
1641

被折叠的 条评论
为什么被折叠?



