spark源码编译

本文介绍如何使用源码编译Spark 2.2.0版本,并针对CDH Hadoop环境进行配置。文章详细解释了如何修改pom.xml文件以加入Cloudera仓库,确保正确获取依赖。此外还提供了必要的编译命令及其参数说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考网址:http://spark.apache.org/docs/latest/building-spark.html


由于spark对hadoop版本有一定的依赖,所以建议使用源码来编译,本次编译的版本为:spark2.2。0
由于这次编译需要CDH的HADOOP依赖,解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:
<repository>
    <id>cloudera</id>
    <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>


准备:Maven 3.3.9、Java 8+。注意,从2.2.0开始,spark已经移除了java 7


编译命令:mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
 
简单说说参数代表的意思
 -Pyarn:表示需要将spark作业提交至yarn
 -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:这里是指定了hadoop的版本
 -Phive -Phive-thriftserver:需要支持hive的jcbc
 (如果需要其他参数,可以参考官网)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值