编译spark2.4.2-bin-2.6.0-cdh5.7.6

最新推荐文章于 2021-09-18 15:18:23 发布

原创最新推荐文章于 2021-09-18 15:18:23 发布 · 271 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark编译 #maven

学习生涯专栏收录该内容

25 篇文章

订阅专栏

本文档详细记录了编译Spark 2.4.2与CDH 5.7.6兼容版本的过程，包括环境配置、Maven设置、Spark配置以及编译命令的执行，最终成功完成编译。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记录自己编译spark的过程

一、环境

1.hadoop环境为：Hadoop 2.6.0-cdh5.7.6
2.Scala环境为：Scala code runner version 2.11.12
3.jdk环境为：1.8
4.maven环境为：Apache Maven 3.6.1
5.spark版本为：spark-2.4.2.tgz

二、配置maven

在maven的conf目录下的settings.xml添加

##配置mvn的本地存放位置
<localRepository>/usr/local/maven/repo</localRepository>

##配置mvn下载源为阿里云的maven仓库，加速下载
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>

三、配置spark

	1.#修改pom.xml文件，添加clouder仓库
	<repository>
 		<id>cloudera</id>
  		<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
	</repository>
    2.到dev目录下 make-distribution.sh修改版本

如图：

四、执行编译命令

	到spark的dev目录下执行下面的命令
	./make-distribution.sh --name 2.6.0-cdh5.7.6 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.6
	参数解释：
	 --name：生成压缩包的后缀名字；前缀默认为spark版本的名字，本例为：spark-2.4.2-bin
	  --tgz：采用压缩格式为tar，压缩的后缀名为.tgz
	  -Pyarn：表示spark需要运行在yarn上面
	  -Phadoop-2.6：表示spark使用hadoop的profile的id
	  -Dhadoop.version=2.6.0-cdh5.7.7：表示spark使用hadoop的版本；如果不指定，默认使用的是2.2.0的hadoop
	  -Phive -Phive-thriftserver：表示支持hive

五、编译完成

	编译时间上不封顶，全看网速，我的就比较悲催，中间网速太慢。失败了好几次，最终如下图：

在这里插入图片描述
最后看到编译完成后的它。静静躺在那里：

终于编译完成了，可以开始学习spark了
加油