Spark安装与使用

最新推荐文章于 2025-08-28 10:05:36 发布

原创最新推荐文章于 2025-08-28 10:05:36 发布 · 860 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #centos #spark安装 #scala

Spark 专栏收录该内容

6 篇文章

订阅专栏

本教程的具体运行环境如下：

CentOS 6.7
Spark 2.1.0
Hadoop 2.7.3
Java JDK 1.8.0
Scala 2.11.8

准备工作

安装JDK，并配置好JAVA_HOME变量。此外，Spark会用到HDFS与YARN，因此请先安装Hadoop，具体请浏览hadoop安装教程。

安装Spark

本教程选用的是Spark 2.1.0版本，选择package type为Pre-build for Hadoop 2.7 and later.

这里写图片描述

下载链接：Download Spark.

下载后执行如下命令：

$sudo tar -zxf ~/spark-2.1.0-bin-hadoop2.7.tgz  -C /usr/local/
$cd /usr/local
$sudo mv ./spark-2.1.0-bin-hadoop2.7  ./spark
$sudo chown -R hadoop:hadoop ./spark

安装后，需要在./conf/spark-env.sh中修改Spark的Classpath，执行如下命令：

$cd /usr/local/spark
$./conf/spark-env.sh.template ./conf/spark-env.sh

编辑./conf/spark-env.sh(vim ./conf/spark-env.sh),在最后面加上如下一行：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

运行Spark实例

前提：必须安装Hadoop才能使用Spark，但如果使用Spark过程中没用到HDFS，不启动Hadoop也是可以的。在/usr/local/spark/examples/src/main目录下有一些Spark的示例程序。

一个示例程序，计算SparkPi（计算π的近似值），执行如下命令：

$cd /usr/local/spark
$./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

通过sbt编译打包Self-Contained Applications可参考：Spark 快速入门之SBT安装。

致谢

给力星：Spark快速入门指南-Spark安装与基础使用

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

walker_storage

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark的安装与使用

qq_42316200的博客

07-29

1139

spark的安装与使用 1、 apache官网下载spark软件包选择hadoop2.7(版本要与hadoop版本对应) spark-2.4.3-bin-hadoop2.7.tgz 2、下载scala scala官网下载 3、使用共享文件夹上传 4、解压移动 sudo tar -xzvf spark-2.4.3-bin-hadoop2.7.tgz -C /usr/spark sudo t...

Spark的安装和使用方法

MusicDancing的博客

08-29

5352

1. 安装Spark 2. 在Spark shell中运行代码 Spark Shell本身就是一个Driver，Driver包mian()和分布式数据集。启动Spark Shell 命令： ./bin/spark-shell --master <master-url> Spark的运行模式取决于传递给SparkContext的Master URL的值，可以有如下选择： 1. local 使用一个Worker线程来本地化运行Spark，非并行。 2. local[*] 使用

参与评论您还未登录，请先登录后发表或查看评论

【Spark的安装与应用——Day9】

weixin_63192724的博客

06-17

2158

唯一不同的是，Spark Shell本身为集群的client提交方式运行，不支持cluster提交方式，即使用Spark Shell时，Driver运行于本地客户端，而不能运行于集群中。因此，Spark处理速度比MapReduce更快。 Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。

spark 安装与使用 educoder

m0_56494324的博客

04-21

5129

大致顺序是这样，仅供参考，欢迎指正！命令行不能直接复制，所以出错的可能比较大。第一关： mkdir /app cd /opt tar -zxvf scala-2.12.7.tgz -C /app vi /etc/profile SCALA_HOME=/app/scala-2.12.7 export PATH =$PATH:$SCALA_HOME/bin cd /app cd scala-2.12.7 scala -version 第2关：安装与配置Spark开发环境 mkdir /

【Spark】Spark安装和使用

小哲的博客

08-06

2911

Spark安装和使用原文地址：厦门大学数据库实验室，作者：林子雨 Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala，因此，“Spark安装”这个部分的教程，假设读者的计算机上，没有安装Scala，也...

精选资源

Spark 安装与使用教程

04-24

通过本教程，我们详细介绍了 Spark 的安装与使用方法，包括单机模式和集群模式的安装，以及 RDD 编程、DataFrame 和 Spark SQL、Spark Streaming、MLlib 等核心功能的使用。同时，还介绍了 Spark 的性能调优、监控与...

精选资源

Spark安装与使用指南

04-24

spark的安装与使用 # Spark 的安装与使用指南 Apache Spark 是一个快速、通用的集群计算系统，提供了高级 API（如 Java、Scala、Python 和 R）以及优化的引擎来支持通用执行图。 ## 一、Spark 安装 ### 1. 前提...

精选资源

【大数据处理】Spark安装与使用全攻略：从环境准备到核心概念解析及常见问题解决、Spark简介

04-24

内容概要：本文详细介绍了Apache Spark的安装与使用方法，涵盖其背景、安装步骤、核心概念及常见操作。Spark是专为大规模数据处理设计的快速通用大数据处理引擎，采用内存分布数据集，支持多种编程语言。其安装需...

精选资源

实验八、Spark的安装与使用.doc

07-08

Spark 安装与使用实验报告本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架，能够高效地处理大规模数据。一、实验目的本实验的目的是学习 Spark 的安装与使用...

spark的安装与使用.md

04-24

### Spark安装与使用 #### 硬件和软件环境要求在安装Spark之前，需要准备相应的环境。硬件方面，系统至少需要4GB的内存，推荐使用8GB以上；存储空间根据数据集大小决定，至少需要500MB。软件方面，需要有Java运行...

Spark安装使用

随影的博客

03-09

235

第一步配置环境变量vim /etc/profileexport SPARK_HOME=/usr/local/spark2.2.1export PATH=$PATH:$SPARK_HOME/binsource /etc/profile第二步配置spark环境cp spark-env.sh.template spark-env.shvim spark-env.shexport SCALA_HOME...

spark安装与使用

zk仔的博客

07-13

652

spark安装 tar -zxvf ...gz cp spark/conf/spark-env.sh.template spark/conf/spark-env.sh echo 'export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)' >> spark/conf/spark-env.sh spark...

Spark的安装与使用

孤独の根号三

03-22

4178

目录：一、Spark的安装1.安装环境：2.Spark的下载：3.安装步骤：3.1 配置Job History Server【Standalone】3.2 配置Spark HA【Standalone】3.3 配置Spark【Yarn】二、Spark的使用1.执行spark程序（standalone）2.执行spark程序（yarn）3.启动Spark Shell4.在IDEA中使用Spark本地调...

Spark的安装和使用

weixin_67281754的博客

04-12

6493

（该程序计算 /usr/local/spark/README 文件中包含 "a" 的行数和包含 "b" 的行数。cp ./bin/sbt-launch.jar ./ //把bin目录下的sbt-launch.jar复制到sbt的安装目录下。sudo chown -R hadoop /usr/local/sbt //此处的Hadoop为当前用户名。/usr/local/sbt/sbt package //如果没有权限需要加sudo。

spark的安装和使用

weixin_44720443的博客

05-25

445

a.先到官网下载安装包注意第二项要选择和自己hadoop版本相匹配的spark版本，然后在第4项点击下载。若无图形界面，可用windows系统下载完成后传送到centos中。 b.安装spark 保存后，Spark 就可以启动了。 b.spark的简单使用在 ./examples/src/main 目录下有一些 Spark 的示例程序，有 Scala、Java、Python、R 等语言的...

头歌：Spark的安装与使用

weixin_62399938的博客

04-29

8460

第1关：Scala语言开发环境的部署相关知识Scala是一种函数式面向对象语言，它融汇了许多前所未有的特性，而同时又运行于JVM之上。随着开发者对Scala的兴趣日增，以及越来越多的工具支持，无疑Scala语言将成为你手上一件必不可少的工具。而我们将要学习的大数据框架Spark底层是使用Scala开发的，使用scala写出的代码长度是使用java写出的代码长度的1/10左右，代码实现更加简练。所以安装与配置Scala的环境是我们在开始学习Spark之前要完成的准备工作。

Spark安装与入门使用

cjf_wei的博客

10-15

583

Spark是一个通用的大规模数据快速处理引擎，一个大数据分布式处理框架。Spark之所以能被迅速的应用到各种大数据处理场景下，与其为Batching processing,Streaming Processing,Ad-hoc Query等三大大数据处理问题提供了近乎完美的解决方案息息相关。

Spark 安装教程与使用指南