spark on hive 参数

最新推荐文章于 2025-01-29 12:04:27 发布

原创最新推荐文章于 2025-01-29 12:04:27 发布 · 510 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hive #大数据

set hive.execution.engine=spark;
set spark.app.name=test9999;
set spark.executor.cores=5;
set spark.executor.memory=20G;
set spark.executor.instances=5;
set spark.driver.memory=5G;
set spark.memory.fraction=0.9;
–定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是，将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。
spark.default.parallelism=50;
set hive.merge.sparkfiles=true;
–是否自动转换为mapjoin
set hive.auto.convert.join=true;
–小表的最大文件大小，默认为25000000，即25M
set hive.mapjoin.smalltable.filesize=25000000;
–是否将多个mapjoin合并为一个
set hive.auto.convert.join.noconditionaltask=true;
–多个mapjoin转换为1个时，所有小表的文件大小总和的最大值。
set hive.auto.convert.join.noconditionaltask.size=25000000;