ubuntu Hadoop及Spark环境搭建

本文详细介绍了在Linux系统下搭建分布式计算框架的过程,包括选择Ubuntu或CentOS作为操作系统,配置Hadoop和Spark进行高效分布式计算,以及解决常见安装问题。

关于平台选择的问题
目前分布式计算框架主要是在linux系统下开发,因此选择ubuntu或者centos都没有问题。
spark发展到现在,很多方面都已经十分完善,其速度与性能等也比hadoop好不止一个数量级,因此,主要使用spark进行分布式计算框架的学习。但是hadoop中的HDFS文件系统应用广泛,spark默认也采用hadoop的HDFS文件系统,因此安装时,首先安装配置hadoop,然后再安装spark。
主要流程
安装系统
最好是首先配置一个username为hadoop的用户名,方便之后的操作。
安装hadoop
jdk配置:因为在这里需要配置jdk,尽量选择jdk8,不要选择9或者以上的版本,否则之后spark中的scala(scala2.12.4以及之前版本都是这样)无法使用
在安装hadoop的过程中,主要是需要配置一些免密登录等的东西,方便之后的操作,同时需要设置hadoop文件夹可以被hadoop用户直接读写,否则始终用sudo操作很麻烦。
安装hadoop的参考链接
https://www.cnblogs.com/87hbteo/p/7606012.html
http://blog.youkuaiyun.com/monkeys2012/article/details/51972622
scala安装
其实不需要单独安装这个,因为之后安装spark的时候也会安装scala,但是为了平时练习,也可以安装一下,安装教程参考链接和spark的放在一起
spark安装
安装与测试的参考链接:http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/
注意:如果遇到spark-shell Failed to initialize compiler: object java.lang.Object in compiler mirror not found.等问题,可能就是java版本太高的问题,换成8或者一下就没有问题了

### 安装和配置 HadoopSpark #### 准备工作 为了确保系统的稳定性和兼容性,在开始之前应当更新Ubuntu系统,保证其处于最新状态[^3]。 #### JDK 的安装 由于Hadoop能够完美支持的Java最佳版本为JDK 11,因此建议优先考虑此版本。可以通过官方渠道下载对应的JDK包并按照常规方式进行安装。对于解压型软件包,可以采用如下命令完成解压操作: ```bash tar -zxvf jdk-11.x-linux-x64.tar.gz -C /usr/local/ ``` #### Scala 的安装 考虑到与后续组件的最佳适配情况,推荐选用Scala 2.13.13版本。同样地,通过官方网站获取对应版本后执行解压缩动作即可完成部署: ```bash tar -zxvf scala-2.13.13.tgz -C /usr/local/ ``` #### SSH 配置无密码登录 为了让集群内部节点间通信更加便捷高效,需预先做好SSH免密登录设置。这一步骤涉及到了本机与其他机器之间的信任关系建立,具体实现方法可参照网络上的相关指南来完成。 #### Hadoop 的安装 选取适合当前环境Hadoop版本(如3.3.6),并将下载得到的二进制分发版放置于指定位置,比如`/usr/local`目录下,之后对其进行重命名以便识别,并调整所属者权限给特定用户(例如hadoop): ```bash sudo tar zxf hadoop-3.3.6.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-3.3.6 /usr/local/hadoop sudo chown -R hadoop:hadoop /usr/local/hadoop ``` 随后依据官方文档指导编辑必要的配置文件,使Hadoop能够在伪分布模式下正常运作。 #### YARN 的配置 作为资源管理器的一部分,YARN需要被正确设定才能让整个生态系统协同工作良好。这部分主要涉及到修改yarn-site.xml等相关参数定义,从而满足实际应用场景需求。 #### Spark 的安装 当上述准备工作完成后,便轮到Spark登场了。这里选择的是较为稳定的3.5.1版本。同理先将压缩包释放出来再做适当处理: ```bash sudo tar zxf spark-3.5.1-bin-hadoop3.2 /usr/local/spark sudo chown -R hadoop:hadoop /usr/local/spark ``` 紧接着依照指引完善conf下的各项属性值,特别是关于master/slave角色分配的部分。 至此,一套基于Ubuntu平台构建而成的小规模大数据分析框架就搭建完毕了!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值