Hive_配置参数

最新推荐文章于 2023-01-17 10:29:02 发布

原创最新推荐文章于 2023-01-17 10:29:02 发布 · 960 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Hive 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了Hive中的各项配置参数及其默认值，包括jobname长度限制、jar路径设置、UDF与SerDe插件管理等。此外还涉及了如Map聚合、Join操作优化、小文件合并策略及内存管理等多个方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hive.jobname.length

当前 job name 的最大长度，hive 会根据此长度省略 job name 的中间部分。
默认值：50

hive.jar.path

通过单独的 JVM 提交 job 时，hive_cli.jar 所在的路径
默认值：”

hive.aux.jars.path

各种由用户自定义 UDF 和 SerDe 构成的插件 jar 包所在的路径。
默认值：”

hive.table.name

当前的 Hive 表的名称，该配置将通过 ScirptOperator 传入到用户脚本中。
默认值：”

hive.partition.name

当前的 Hive 分区的名称，该配置将通过 ScriptOperator 传入到用户脚本中。
默认值：”

hive.script.auto.progress

脚本是否周期性地向 Job Tracker 发送心跳，以避免脚本执行的时间过长，使 JobTracker 认为脚本已经挂掉了。
默认值：false

hive.script.operator.id.env.var

用于识别 ScriptOperator ID 的环境变量的名称。
默认值：’HIVE_SCRIPT_OPERATOR_ID’

hive.alias

当前的 Hive 别名，该配置将通过 ScriptOpertaor 传入到用户脚本中。
默认值：”

hive.map.aggr

决定是否可以在 Map 端进行聚合操作
默认值：true

hive.join.emit.interval

Hive Join 操作的发射时间间隔，以毫秒为单位。
默认值：1000

hive.join.cache.size

Hive Join 操作的缓存大小，以字节为单位。
默认值：25000

hive.mapjoin.bucket.cache.size

Hive MapJoin 桶的缓存大小，以字节为单位。
默认值：100

hive.mapjoin.size.key

Hive MapJoin 每一行键的大小，以字节为单位。
默认值：10000

hive.mapjoin.cache.numrows

Hive MapJoin 所缓存的行数。
默认值：25000

hive.groupby.mapaggr.checkinterval

对于 Group By 操作的 Map 聚合的检测时间，以毫秒为单位。
默认值：100000

hive.map.aggr.hash.percentmemory

Hive Map 端聚合的哈稀存储所占用虚拟机的内存比例。
默认值：0.5

hive.map.aggr.hash.min.reduction

Hive Map 端聚合的哈稀存储的最小 reduce 比例。
默认值：0.5

hive.udtf.auto.progress

Hive UDTF 是否周期性地报告心跳，当 UDTF 执行时间较长且不输出行时有用。
默认值：false

hive.fileformat.check

Hive 是否检查输出的文件格式。
默认值：true

hive.querylog.location

Hive 实时查询日志所在的目录，如果该值为空，将不创建实时的查询日志。
默认值：’/tmp/$USER’

hive.hwi.listen.host

HWI 所绑定的 HOST 或者 IP。
默认值：’0.0.0.0’

hive.hwi.listen.port

HWI 所监听的 HTTP 端口。
默认值：9999

hive.hwi.war.file

HWI 的 war 文件所在的路径。
默认值：$HWI_WAR_FILE

hive.test.mode

是否以测试模式运行 Hive
默认值：false

hive.test.mode.prefix

Hive 测试模式的前缀。
默认值：’test_’

hive.test.mode.samplefreq

Hive 测试模式取样的频率，即每秒钟取样的次数。
默认值：32

hive.test.mode.nosamplelist

Hive 测试模式取样的排除列表，以逗号分隔。
默认值：”

hive.merge.size.per.task

每个任务合并后文件的大小，根据此大小确定 reducer 的个数，默认 256 M。
默认值：256000000

hive.merge.smallfiles.avgsize

需要合并的小文件群的平均大小，默认 16 M。
默认值：16000000

hive.optimize.skewjoin

是否优化数据倾斜的 Join，对于倾斜的 Join 会开启新的 Map/Reduce Job 处理。
默认值：false

hive.skewjoin.key    倾斜键数目阈值，超过此值则判定为一个倾斜的 Join 查询。

默认值： 1000000

hive.skewjoin.mapjoin.map.tasks

处理数据倾斜的 Map Join 的 Map 数上限。
默认值： 10000

hive.skewjoin.mapjoin.min.split

处理数据倾斜的 Map Join 的最小数据切分大小，以字节为单位，默认为32M。
默认值：33554432

mapred.min.split.size

Map ReduceJob 的最小输入切分大小，与 HadoopClient 使用相同的配置。
默认值：1

hive.mergejob.maponly

是否启用 Map Only 的合并 Job。
默认值：true

hive.heartbeat.interval

Hive Job 的心跳间隔，以毫秒为单位。
默认值：1000

hive.mapjoin.maxsize

Map Join 所处理的最大的行数。超过此行数，Map Join进程会异常退出。
默认值：1000000

hive.hashtable.initialCapacity

Hive 的 Map Join 会将小表 dump 到一个内存的 HashTable 中，该 HashTable 的初始大小由此参数指定。
默认值：100000

hive.hashtable.loadfactor

Hive 的 Map Join 会将小表 dump 到一个内存的 HashTable 中，该 HashTable 的负载因子由此参数指定。
默认值：0.75

hive.mapjoin.followby.gby.localtask.max.memory.usage

MapJoinOperator后面跟随GroupByOperator时，内存的最大使用比例
默认值：0.55

hive.mapjoin.localtask.max.memory.usage

Map Join 的本地任务使用堆内存的最大比例
默认值：0.9

hive.mapjoin.localtask.timeout

Map Join 本地任务超时
默认值：600000

hive.mapjoin.check.memory.rows

设置每多少行检测一次内存的大小，如果超过hive.mapjoin.localtask.max.memory.usage 则会异常退出，Map Join 失败。
默认值：100000

hive.task.progress

是否开启 counters ，以记录 Job 执行的进度，同时客户端也会拉取进度 counters。
默认值：false

hive.optimize.reducededuplication

是否优化 reduce 冗余。
默认值：true

hive.hbase.wal.enabled

是否开启 HBase Storage Handler。
默认值：true

hive.archive.enabled

是否启用 har 文件。
默认值：false

hive.archive.har.parentdir.settable

是否启用 har 文件的父目录可设置。
默认值：false

hive.outerjoin.supports.filters

是否启动外联接支持过滤条件。
默认值：true

hive.cli.print.header

是否显示查询结果的列名，默认为不显示。
默认值：false

hive.cli.encoding

Hive 默认的命令行字符编码。
默认值：’UTF8’

hive.log.plan.progress

是否记录执行计划的进度。
默认值：true

hive.max.progress.counters

Hive 最大的进度 couters 个数
默认值：100

hive.check.fatal.errors.interval

客户端通过拉取 counters 检查严重错误的周期，以毫秒为单位
默认值：5000L

hive.exec.mode.local.auto

决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行）
默认值：true

hive.exec.mode.local.auto.inputbytes.max

如果hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。
默认值：134217728L

hive.exec.mode.local.auto.tasks.max

如果hive.exec.mode.local.auto 为 true，当 Hive Tasks（Hadoop Jobs）小于此阈值时，可以自动在本地模式运行。
默认值：4

hive.auto.convert.join

是否根据输入小表的大小，自动将 Reduce 端的 Common Join 转化为 Map Join，从而加快大表关联小表的 Join 速度。
默认值：false

hive.mapred.local.mem

Mapper/Reducer在本地模式的最大内存量，以字节为单位，0为不限制。
默认值：0

mapred.reduce.tasks

所提交 Job 的 reducer 的个数，使用 Hadoop Client 的配置。
默认值：1

hive.exec.scratchdir

HDFS路径，用于存储不同 map/reduce 阶段的执行计划和这些阶段的中间输出结果。
默认值：/tmp/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。