Spark环境搭建

最新推荐文章于 2025-05-14 08:28:49 发布

Nthforever

最新推荐文章于 2025-05-14 08:28:49 发布

阅读量448

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark

本文链接：https://blog.youkuaiyun.com/getsgock/article/details/86714825

本文档详细介绍了Spark、Hadoop和Scala的基础知识，并提供了Windows和Linux环境下Scala、Spark及Hadoop的安装步骤。强调Spark并不强制依赖Hadoop和Scala，支持多种编程语言接口，同时提供了在Windows上配置Hadoop的注意事项，包括配置环境变量、解决winutils问题等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

因为公司项目有用到,整理了一下,特此记录 .网上教程几乎都是全家桶,上来就是安装Scala,Spark,Hadoop.不清楚为什么要安装,自己是否需要安装.又因为安装环境是学习的第一步,所以基本处于懵逼状态!

Scala,Spark,Hadoop介绍

什么是spark?

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

下面是官网上的一段话:

Get Spark from the downloads page of the project website. This documentation is for Spark version 2.4.0. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and run Spark with any Hadoop version by augmenting Spark’s classpath. Scala and Java users can include Spark in their projects using its Maven coordinates and in the future Python users can also install Spark from PyPI.
If you’d like to build Spark from source, visit Building Spark.
Spark runs on both Windows and UNIX-like systems (e.g. Linux, Mac OS). It’s easy to run locally on one machine — all you need is to have javainstalled on your system PATH, or the JAVA_HOME environment variable pointing to a Java installation.
Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x).
Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0.

从上面可以看出:

Spark 需要借助Hadoop客户端的库去使用 HDFS and YARN
(yarn是作业调度和集群资源管理的一个框架。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。)
你可以选择官方提前打包好的继承了某些稳定Hadoop版本的Spark，也可以随意搭配任意版本的Hadoop版本编译使用
Scala 和Java使用者通过maven坐标将Spark引入项目
Spark 支持Windows 和类UNIX操作系统
配置好java环境Spark 就可以轻松的运行在一台机器上
Spark 运行需要 Java 8+, Python 2.7+/3.4+ and R 3.1+.

什么是Hadoop？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

什么是Scala?

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

所以使用Spark不一定需要安装Hadoop，也不一定需要安装Scala。Spark提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。如果不依赖Hadoop的hdfs进行持久化,则不需要Hadoop。如果不使用yarn模式启动集群，也不需要Hadoop。

Scala windows下安装

去官网 https://www.scala-lang.org/
下载页面 https://www.scala-lang.org/download/
Scala 安装两种方式
A. 通过ide安装，
首先确定已经安装好Java8 jdk
在IDEA的启动界面点击 Configure -> Plugins，然后搜索Scala，点击 Install 即可
与其他编程语言相比，Scala有点不一样。Scala不是安装在系统范围内，而是为每一个Scala项目安装一个版本，通过ide可以为你创建的每一个项目管理一个定制版的Scala
B.其他方式安装
你可以选择它双击安装

你也可以选择它解压缩

配置环境变量,添加到path中

执行命令
scala -version

安装成功.

最低0.47元/天解锁文章

200万优质内容无限畅学