基于shark-0.9.1 spark0.9.1 hadoop 2.3.0的环境搭建(os redhat 6.4)

本文档详细介绍了如何在Redhat 6.4上搭建基于Hadoop 2.3.0的Spark 0.9.1和Shark 0.9.1环境。首先,从Apache官网下载并配置Hadoop 2.3.0。接着,因Spark官方版本与Hadoop 2.3.0存在兼容性问题,需修改源码并重新编译Spark。然后,配置Spark环境并分发到集群。再者,下载Shark 0.9.1并编译,同样分发到集群。最后,解决Shark运行时的错误,通过创建集中库目录并将相关jar包转移并更新yarn-site.xml,使得Shark能正常运行。现在,可以使用Shark的命令行工具开始数据处理工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OS version:redhat 6.4

1、从apache官网下载hadoop2.3.0版本,并正确配置参数(此处不详述)

2、在github的apache/spark页面下载spark-0.9.1的源代码:http://www.apache.org/dyn/closer.cgi/incubator/spark/spark-0.9.1/spark-0.9.1.tgz

需要注意的是截止目前官方提供的spark的版本是基于CDH5/hadoop 2.2.0编译的,spark-0.9.1在hadoop2.3.0上还存在点小问题:
spark启动时需要读取yarn-site.xml中的yarn.application.classpath,如果此参数没有显示配置,则默认的值是空,这时会抛出异常:

Exception in thread "main" java.lang.NullPointerException
        at scala.collection.mutable.ArrayOps$ofRef$.length$extension(ArrayOps.scala:114)
        at scala.collection.mutable.ArrayOps$ofRef.length(ArrayOps.scala:114)
        at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:32)
        at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
        at org.apache.spark.deploy.yarn.Client$.populateHadoopClasspath(Client.scala:498)
        at org.apache.spark.deploy.yarn.Client$.populateClasspath(Client.scala:519)
        at org.apache.spark.deploy.yarn.Client.setupLaunchEnv(Client.scala:333)
        at org.apache.spark.deploy.yarn.Client.runApp(Client.scala:94)
        at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:78)
        at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:125)
        at org.apache.spark.SparkContext.<init>(SparkContext.scala:200)
        at shark.SharkContext.<init>(SharkContext.scala:42)
        at shark.SharkContext.<init>(SharkContext.scala:61)
        at shark.SharkEnv$.initWithSharkContext(SharkEnv.scala:78)
        at shark.SharkEnv$.init(SharkEnv.scala:38)
        at shark.SharkCliDriver.<init>(SharkCliDriver.scala:278)
        at shark.SharkCliDriver$

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值