Hive语句前的常见设置

最新推荐文章于 2024-12-21 21:25:44 发布

转载最新推荐文章于 2024-12-21 21:25:44 发布 · 652 阅读

1 篇文章

订阅专栏

1.hive.cli.print.header=true
是否显示查询结果的列名，默认为不显示
2.set hive.exec.parallel=true;
参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.
3.hive.map.aggr=true
决定是否可以在 Map 端进行聚合操作，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。
缺点：该设置会消耗更多的内存。
注：顶层的聚合操作（top-levelaggregation operation）,是指在group by语句之前执行的聚合操作。
4.set hive.groupby.skewindata=true
操作是否支持倾斜的数据,数据倾斜，会启动一个优化程序，避免数据倾斜。
5.hive.exec.mode.local.auto = true
决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行）
6.hive.auto.convert.join = true
是否根据输入小表的大小，自动将 Reduce 端的 Common Join 转化为 Map Join，从而加快大表关联小表的 Join 速度。
7.hive.mapred.local.mem
Mapper/Reducer 在本地模式的最大内存量，以字节为单位，0为不限制。
8.hive.default.fileformat
Hive 默认的输出文件格式，与创建表时所指定的相同，可选项为 ‘TextFile’ 、 ‘SequenceFile’ 或者 ‘RCFile’。
9.hive.mapred.mode
Map/Redure 模式，如果设置为 strict，将不允许笛卡尔积,’nonstrict’则允许笛卡尔积
10.hive.security.authorization.enabled
Hive 是否开启权限认证。
11.hive.exec.compress.output
决定查询中最后一个 map/reduce job 的输出是否为压缩格式。
12.hive.exec.compress.intermediate
决定查询的中间 map/reduce job （中间 stage）的输出是否为压缩格式。
13.hive.exec.parallel.thread.number
并发提交时的并发线程的个数。
14.hive.cli.encoding = ‘UTF8’
Hive 默认的命令行字符编码。
15.hive.log.plan.progress = true
是否记录执行计划的进度。 --------------------- 本文来自 pends 的优快云博客，全文地址请点击：https://blog.youkuaiyun.com/ydq1206/article/details/78709493?utm_source=copy