ubuntu Hadoop及Spark环境搭建

最新推荐文章于 2023-03-15 16:47:47 发布

转载最新推荐文章于 2023-03-15 16:47:47 发布 · 374 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/u012526003/article/details/79601359

文章标签：

#Hadoop #Spark

Project 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了在Linux系统下搭建分布式计算框架的过程，包括选择Ubuntu或CentOS作为操作系统，配置Hadoop和Spark进行高效分布式计算，以及解决常见安装问题。

关于平台选择的问题
目前分布式计算框架主要是在linux系统下开发，因此选择ubuntu或者centos都没有问题。
spark发展到现在，很多方面都已经十分完善，其速度与性能等也比hadoop好不止一个数量级，因此，主要使用spark进行分布式计算框架的学习。但是hadoop中的HDFS文件系统应用广泛，spark默认也采用hadoop的HDFS文件系统，因此安装时，首先安装配置hadoop，然后再安装spark。
主要流程
安装系统
最好是首先配置一个username为hadoop的用户名，方便之后的操作。
安装hadoop
jdk配置：因为在这里需要配置jdk，尽量选择jdk8，不要选择9或者以上的版本，否则之后spark中的scala(scala2.12.4以及之前版本都是这样)无法使用
在安装hadoop的过程中，主要是需要配置一些免密登录等的东西，方便之后的操作，同时需要设置hadoop文件夹可以被hadoop用户直接读写，否则始终用sudo操作很麻烦。
安装hadoop的参考链接
https://www.cnblogs.com/87hbteo/p/7606012.html
http://blog.youkuaiyun.com/monkeys2012/article/details/51972622
scala安装
其实不需要单独安装这个，因为之后安装spark的时候也会安装scala，但是为了平时练习，也可以安装一下，安装教程参考链接和spark的放在一起
spark安装
安装与测试的参考链接：http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/
注意：如果遇到spark-shell Failed to initialize compiler: object java.lang.Object in compiler mirror not found.等问题，可能就是java版本太高的问题，换成8或者一下就没有问题了