Hadoop-2.2.0搭建Spark-1.3.1

本文指导如何在Hadoop 2.2.0环境下安装配置Spark 1.3.1和Hive 0.11.0,并详细说明了从Maven编译Spark到启动Spark分布式集群的全过程。同时,解决在启动过程中遇到的MySQL驱动未找到和内存溢出等问题。
感谢分享:http://itindex.net/detail/53456-spark-1.3.1-hive

Hadoop版本:2.2.0

JDK版本:1.7.0_15

MAVEN版本:3.3.3

Scala版本:2.10.5

Spark版本:1.3.1

Hive版本:0.11.0

一:Maven编译Spark

1. 切换到根目录:cd ~

2. 设置Maven运行时内存大小:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

3. 使用mvn命令编译Spark:mvn -Pyarn -Dyarn.version=2.2.0 -Phadoop-2.2 -Dhadoop.version=2.2.0 -Phive -Phive-0.11.0 -Phive-thriftserver -DskipTests clean package

3-1.编译构建完成以后,可以看到如下内容:

		/opt/spark-1.3.1/assembly/target/scala-2.10/spark-assembly-1.3.1-hadoop2.2.0.jar
		/opt/spark-1.3.1/lib_managed/*.jar
二:编辑 ~/.bash_profile文件 
	1. 增加SPARK_HOME环境变量
	
	2. 配置完成后使用source命令使配置生效
三:hive-site.xml这个配置文件放到spark的conf中
四:配置Spark
	进入Spark目录中的conf目录
	1. 在slave文件中添加slave节点
		1-1. 复制生成slaves:cp slaves.template slaves
		1-2. 编辑slaves添加slave节点:vi slaves
		
	2. 配置spark-env.sh
		2-1. 复制生成spark-env.sh:cp spark-env.sh.template spark-env.sh
		2-2. 配置spark-env.sh

3. 启动spark分布式集群和查看

3-1. sbin目录下运行./start-all.sh

3-2. 在Master中输入jps,可以看到Worker和Master两个进程

在Slave中输入jps,可以看到Worker

五:启动spark-sql,运行SQL语句

进入bin目录,运行./spark-sql进入SQL命令

错误提示1:

org.datanucleus.store.rdbms.datasource.DatastoreDriverNotFoundException: 

The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. 

Please check your CLASSPATH specification, and the name of the driver. 

解决办法:mysql驱动加载到classpath中

运行时指定mysql驱动:./spark-sql --driver-class-path /opt/spark-1.3.1/mysql-connector-java-5.1.25.jar

或者

在~/.bash_profile指定:SPARK_CLASSPATH=/opt/spark-1.3.1/lib/mysql-connector-java-5.1.25.jar

错误提示2:

java.lang.OutOfMemoryError: GC overhead limit exceeded

错误原因:之前的hadoop中hdfs的数据文件丢失了,会有这个错误

(Kriging_NSGA2)克里金模型结合多目标遗传算法求最优因变量及对应的最佳自变量组合研究(Matlab代码实现)内容概要:本文介绍了克里金模型(Kriging)与多目标遗传算法NSGA-II相结合的方法,用于求解最优因变量及其对应的最佳自变量组合,并提供了完整的Matlab代码实现。该方法首先利用克里金模型构建高精度的代理模型,逼近复杂的非线性系统响应,减少计算成本;随后结合NSGA-II算法进行多目标优化,搜索帕累托前沿解集,从而获得多个最优折衷方案。文中详细阐述了代理模型构建、算法集成流程及参数设置,适用于工程设计、参数反演等复杂优化问题。此外,文档还展示了该方法在SCI一区论文中的复现应用,体现了其科学性与实用性。; 适合人群:具备一定Matlab编程基础,熟悉优化算法和数值建模的研究生、科研人员及工程技术人员,尤其适合从事仿真优化、实验设计、代理模型研究的相关领域工作者。; 使用场景及目标:①解决高计算成本的多目标优化问题,通过代理模型降低仿真次数;②在无法解析求导或函数高度非线性的情况下寻找最优变量组合;③复现SCI高水平论文中的优化方法,提升科研可信度与效率;④应用于工程设计、能源系统调度、智能制造等需参数优化的实际场景。; 阅读建议:建议读者结合提供的Matlab代码逐段理解算法实现过程,重点关注克里金模型的构建步骤与NSGA-II的集成方式,建议自行调整测试函数或实际案例验证算法性能,并配合YALMIP等工具包扩展优化求解能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值