Hive一些常用配置【持续更新】

本文详细介绍了Hive的配置参数,包括本地模式自动启动、最大输入数据量与文件数设定,以及CLI提示和查询结果展示。此外,还展示了与MySQL数据库的连接配置,仓库目录和元数据存储位置,以及服务器和Zookeeper的相关设置。重点讨论了执行引擎的选择和并发及事务管理的相关配置,对于理解和优化Hive操作具有指导意义。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!--是否以本地模式启动,默认false-->
  <property>
    <name>hive.exec.mode.local.auto</name>
    <value>false</value>
  </property>
  <!--设置local mr的最大输入数据量,当输入数据量小于这个值时采用local  mr的方式,默认为134217728,即128M-->
  <property>
    <name>hive.exec.mode.local.auto.inputbytes.max</name>
    <value>134217728</value>
  </property>
  <!--设置local mr的最大输入文件个数,当输入文件个数小于这个值时采用local mr的方式,默认为4-->
  <property>
    <name>hive.exec.mode.local.auto.input.files.max</name>
    <value>4</value>
  </property>

  <!--让提示符显示当前库,默认false-->
  <property>
    <name>hive.cli.print.current.db</name>
    <value>true</value>
  </property>

  <!--查询结果中显示字段名称,默认false-->
  <property>
    <name>hive.cli.print.header</name>
    <value>true</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
  </property>
 
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.cj.jdbc.Driver</value>
  </property>
   
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
   
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>wz55213305</value>
  </property>
   
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
  </property>
  
  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://localhost:9083</value>
  </property>
  
  <property>
    <name>hive.server2.thrift.bind.host</name>
    <value>localhost</value>
  </property>
  <property>
    <name>hive.server2.thrift.port</name>
    <value>10000</value>
  </property>
  
  <property>
    <name>hive.zookeeper.quorum</name>
    <value>localhost</value>
  </property>
  <property>
    <name>hive.zookeeper.client.port</name>
    <value>2181</value>
  </property>
  
  <property>
    <name>hive.execution.engine</name>
    <value>mr</value>
  </property>
  
  <!--日志相关-->
  <property>
      <name>hive.server2.logging.operation.enabled</name>
      <value>true</value>
    </property>
    <property>
        <name>hive.server2.logging.operation.log.location</name>
        <value>/opt/bigdata/hive/hive-3.1.2/logs/hive.log</value>
    </property>
  
  <!--原子操作相关-->
  <property>
      <name>hive.support.concurrency</name>
      <value>true</value>
    </property>
    <property>
        <name>hive.txn.manager</name>
        <value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>
    </property>
 
</configuration>
### Hive 安装与配置的经验和体会 Hive 是一个建立在 Hadoop 之上的数据仓库工具,用于大规模数据的存储和查询。安装和配置 Hive 的过程中,需要考虑多个方面以确保其高效运行和稳定性能。 #### 1. 环境准备 Hive 的安装依赖于 Hadoop 环境,因此首先需要确保 Hadoop 集群已经正确安装并运行。Hortonworks Sandbox 提供了一个预配置的虚拟机环境,内置了 Hadoop 和 Hive 等大数据工具[^1]。通过下载并运行 Hortonworks Sandbox,可以在本地环境中模拟真实的 Hadoop 集群,从而为 Hive 的安装和配置提供一个接近生产环境的测试平台。 #### 2. Hive 安装步骤 Hive 的安装通常包括以下几个关键步骤: - **下载 Hive**:从 Apache 官方网站或镜像站点下载最新版本的 Hive。 - **解压文件**:将下载的压缩包解压到目标目录。 - **配置环境变量**:将 Hive 的 `bin` 目录添加到系统的 PATH 环境变量中。 - **设置 Hadoop 配置**:确保 Hive 能够访问 Hadoop 集群,需将 Hadoop 的配置文件(如 `core-site.xml`、`hdfs-site.xml` 和 `yarn-site.xml`)复制到 Hive配置目录下。 #### 3. 数据库配置 Hive 使用关系型数据库(如 MySQL 或 Derby)作为元数据存储。对于生产环境,推荐使用 MySQL 来存储 Hive 的元数据。具体步骤如下: - **安装 MySQL**:确保 MySQL 已正确安装并运行。 - **创建元数据库**:在 MySQL 中创建一个新的数据库用于存储 Hive 元数据。 - **配置 Hive**:编辑 Hive 的 `hive-site.xml` 文件,指定 JDBC 连接字符串、用户名和密码等信息。 ```xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive_meta?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property> </configuration> ``` #### 4. 性能优化 为了提升 Hive 的查询性能,可以采取以下措施: - **数据分区**:根据常用过滤条件对数据进行分区,减少查询时扫描的数据量。 - **数据分桶**:通过数据分桶技术实现数据的均匀分布,从而提高连接操作的效率[^4]。 - **调整资源分配**:根据实际需求调整 YARN 的资源分配参数,确保 Hive 查询能够获得足够的计算资源。 #### 5. 监控与调优 持续监控和调整系统性能是保证 Hive 稳定运行的重要手段。可以通过 Kylin 的监控工具或其他第三方工具定期检查 Hive 的运行状态,并根据实际情况调整资源配置和查询策略[^2]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值