Spark Sql 相关设置及调优
参数设置
https://blog.youkuaiyun.com/zyzzxycj/article/details/81011540
设置笛卡尔积
在 SQL 中如果 2 个大表做笛卡尔积,那么数据量会暴增,应尽量避免。如果是两个小表则不会造成这种情况,反而可以便捷生成表
-- 设置支持笛卡尔积
-- Spark 2.x 版本中默认不支持笛卡尔积操作,需要手动开启
set spark.sql.crossJoin.enabled=true;
设置 shuffle 的并行度
因为笛卡尔积会产生 shuffle,默认的 shuffle 结果分区是 200,如果数据量不大,但是分区太多反而影响性能,所以需要减小分区