Windows 单机模式 Spark 安装和 配置

本文详细介绍如何在Windows 7环境下搭建Scala与Spark的开发环境,包括安装Scala、IntelliJ IDEA及其Scala插件,并通过一个WordCount示例演示如何在IDEA中运行Spark程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写图片描述

一.安装前说明

1.台式机系统为windows7
2.此系统已安装和配置java
3.所有软件均为64位

二.安装配置所需的安装包

1.scala2.10.4(http://pan.baidu.com/s/1eSn2jsQ

2.Intellij IDE 2016.3 (http://pan.baidu.com/s/1dFA4Pk1)

3.spark 1.4.0 (http://pan.baidu.com/s/1bLQcY6

三. windows7 安装 scala

scala 安装比较容易,直接下载相应的安装包即可,因为Scala 2.10.3 版本比较稳定,我们推荐用它。
1.安装过程比较简单(如下图):只需 一路 next 即可。(安装位置自定义)
这里写图片描述

四.Intellij IDE 安装

Intellij IDE 是常用的 java 编辑器,也可以作为 spark 单机版的调试器。Intellij IDE 有社区版和免费版,我们只需使用免费版即可。我们使用的是 2016.3 版本
1.安装过程很简单,如下图,一路 next 即可。(安装位置自定义)
这里写图片描述

五. Intellij IDE 中 scala 插件安装

1.启动 Intellij IDE, 界面很炫酷
这里写图片描述

2.选择新建工程 Create New Project
这里写图片描述

这时(如下图)我们会发现没有 scala 插件
这里写图片描述

3.安装 scala 插件
1.打开 File 中的 setting
这里写图片描述

2.点击 plugins 在搜索框里搜索 scala ,然后会看到 scala,点击 Install 安装,安装好之后重启即可。
这里写图片描述

六.运行wordcount

1.新建工程,选择 scala。
这里写图片描述

2.新建 project name,sdk 选择 jdk 中的 java 1.8,scala jdk 选择 scala-sdk-2.10.4.

这里写图片描述

这里写图片描述

3.选择 This windows
这里写图片描述

这里写图片描述
此处要等待一些时间。
这里写图片描述

4.导入 spark jar 包
在file 中 选择 project structure: 点击 + ,选择 java,然后找到spark 包的存放路径,将lib 加入。
这里写图片描述
点击ok
这里写图片描述
此时可以在工程中看到lib包
这里写图片描述

5.src 新建 包
这里写图片描述

这里写图片描述

6.在包中新建 scala 类(选择 object)
这里写图片描述

7.写入 wordcount 代码
这里写图片描述

package com.bigdata.zhaolei

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2016/11/12.
  */
class countword {
  def main(args: Array[String]): Unit ={
    val conf = new SparkConf().setMaster("local").setAppName("Wordcount")
    val sc = new SparkContext(conf)
    val data = sc.textFile("C://Users//Administrator//Desktop//word//wd.txt") // 文本存放的位置
    data.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)
}

8.测试代码运行结果
右键,点击 run wordcount(代码中设定的名字)
这里写图片描述

OK,安装成功。

### 安装 Standalone 模式的 Spark 要在 Windows 系统上安装 standalone 模式的 Spark,可以按照以下方法操作: #### 1. 下载并配置 Scala 为了运行 Spark 的某些功能模块,需要先下载并安装 Scala。推荐版本为 Scala 2.11 或更高版本[^4]。 - **步骤说明**: - 前往官网下载 Scala 并解压到指定目录。 - 设置 `SCALA_HOME` 环境变量,并将其路径中的 `\bin` 添加至系统的 PATH 中。 验证安装成功与否可以通过命令行输入以下内容: ```bash scala -version ``` 如果显示类似如下信息,则表示安装成功: ``` Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL ``` --- #### 2. 下载并解压 Spark 前往 Apache Spark 官方网站下载适合的 Spark 版本(建议选择预编译好的二进制包)。对于不需要 Hadoop 支持的情况,可以选择带有 “without hadoop” 字样的版本[^1]。 将压缩文件解压到本地磁盘的一个固定位置,例如 `C:\spark\`. --- #### 3. 配置环境变量 为了让系统识别 Spark 执行脚本的位置,需设置以下几个重要的环境变量: - 创建一个新的环境变量名为 `SPARK_HOME` ,其值设为 Spark 解压后的根目录 (如 C:\spark\)。 - 修改现有的 `PATH` 变量,在其中追加 `%SPARK_HOME%\bin` 路径。 完成上述更改之后重启 CMD 终端窗口以使新设定生效。 测试是否正常工作可执行下面这条指令查看当前使用的 Spark 版本号: ```bash spark-shell --version ``` --- #### 4. 编辑配置文件 进入 Spark 的 conf 文件夹下找到模板文件 `spark-env.sh.template`, 复制它创建一个实际可用的新文件叫作 `spark-env.sh` [^5]: 修改该 shell script 加入必要的参数定义比如 JAVA_HOME 其他可能需要用到的服务地址等等. 另外还需要注意的是如果你打算构建一个多节点组成的分布式计算框架的话那么这里就需要额外指明 master/slave 结构的相关细节了;但对于单机版来说这些都不是必需品。 --- #### 5. 启动 Spark Standalone Cluster 通过命令提示符切换到 `$SPARK_HOME/sbin` 目录下分别调用两个批处理程序来初始化 Master Worker 进程 : 启动Master服务: ```batch start-master.cmd ``` 接着再开启Worker进程并与刚才建立起来的那个主控单元关联起来: ```batch start-slave.cmd spark://<master-ip>:7077 ``` 此时应该可以在浏览器里访问 http://localhost:8080 来监控整个集群的状态啦! --- ### 总结 以上就是在 Windows 上面独立部署 Spark Standalone Mode 的全过程概述。每一步都至关重要缺一不可哦~希望对你有所帮助😊
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值