背景
由于 CDH6.3.2 以上,已不开源。常用组件只能自编译升级,比如 Spark 。看网上的资料,有人说 Spark3 的 SQL 运行性能比 Spark2 可提升 20%,本人未验证,但是 Spark3 的 AE 功能的确很香,能自适应解决 Spark SQL 的数据倾斜。
下载软件
软件版本:jdk-1.8、maven-3.8.4、scala-2.12.15 、spark-3.3.0
说明:maven 和 scala 请不要改变小版本,如果要改变,请改动 pom 中相应的版本号,否则编译时会有版本错误
把压缩包放在 /opt 目录,全部解压,设置 jdk、scala、maven 的环境变量
编译 Spark3
修改 spark3 的 pom 配置 /opt/spark-3.3.0/pom.xml,增加 cloudera maven 仓库。
在 repositories 标签下,新增

最低0.47元/天 解锁文章
1663

被折叠的 条评论
为什么被折叠?



