Spark安装使用

最新推荐文章于 2025-04-13 09:37:29 发布

reneyao

最新推荐文章于 2025-04-13 09:37:29 发布

阅读量666

点赞数 11

文章标签： spark 大数据分布式

本文链接：https://blog.youkuaiyun.com/2301_77072202/article/details/145120361

版权

一、Spark安装前提
安装Spark之前，需要安装JDK、Hadoop、Scala。

1.1、JDK安装（version：1.8）
官网下载地址(需要oracle账号)
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

1.2、Scala安装（version：2.11.12）

1.2.1、Scala官网下载

官网下载地址：https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi

1.3、Hadoop安装（version：2.7.2）

参考博文：Windows下安装Hadoop（手把手包成功安装）

需要：winutils.exe文件

二、安装Spark（version：2.4.7）
2.1、Spark官网下载
官网下载地址：https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
历史版本仓库：https://archive.apache.org/dist/spark/

安装好记得配置对应的环境变量

三、pyspark的使用注意

配置好spark后，如果需要在windows环境下测试。需要切换到对应的conda的env环境中。使用

下面的命令运行：

spark-submit --master local[4] demo_spark.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

reneyao

关注关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark 安装

pizicai007的博客

03-27

342

从 Spark 官网上下载的 Spark 官网上下载的安装包，默认不支持 Hive，因此要是想在 Spark SQL 上查询操作 Hive 上的数据，需要重新编译 Spark 源码，本文 Spark 的版本为 Spark-2.1.2-bin-hadoop2.6.0；Hadoop 的版本为 Hadoop-2.6.0-cdh5.7.0；Hive 的版本为 Hive-1.1.0-cdh5.7.0，下面介...

spark-3.2.1 安装包下载 hadoop3.2

04-03

spark-3.2.1-bin-hadoop3.2-scala2.13.tgz

参与评论您还未登录，请先登录后发表或查看评论

Spark2.0.2 安装包

02-24

spark安装包，亲测有效。

官方链接内容整理的 Spark-TTS Windows 安装完整流程

asd2580147369的博客

04-13

1534

pip 无法从指定的 PyTorch 旧版本索引中找到适合你当前环境的 torch 包。这通常是由于 Python 版本不兼容或 CUDA 环境问题导致的。PyTorch 2.0+ 需要 Python 3.8-3.11（不支持 Python 3.12）。这会安装最新的 1.x 版本（如 1.26.4），兼容大多数科学计算库。—1. 降级 numpy 到兼容版本。2. 重新安装冲突的包。检查 Python 版本。3. 验证安装。

Spark 下载、安装与配置

热门推荐

梁辰兴的博客

03-29

1万+

Apache Spark 是一个快速的通用集群计算系统。它提供了Java， Scala， Python ，R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具：处理结构化数据的 Spark SQL，用于机器学习的 MLlib，控制图、并行图操作和计算的一组算法和工具的集合 GraphX，数据流处理 Spark Streaming。

sparkTTS window 安装

姚家湾博客

03-10

2196

下载cuda 12.4.

spark安装

u011579204的专栏

07-12

209

hadoop版本hadoop2.9.2 spark版本spark-2.3.3 conf/spark-env.sh export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.2/etc/hadoop export SPARK_MASTER_IP=localhost ...

Spark安装使用教程0基础！！！易懂！！！

07-23

Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用...

Spark安装使用教程PDF

10-19

Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎，可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结： 1. Spark 概述 Spark 是一个开源的计算引擎，可以快速地处理大量数据。Spark...

Spark 安装与使用教程

04-24

通过本教程，我们详细介绍了 Spark 的安装与使用方法，包括单机模式和集群模式的安装，以及 RDD 编程、DataFrame 和 Spark SQL、Spark Streaming、MLlib 等核心功能的使用。同时，还介绍了 Spark 的性能调优、监控与...

实验八、Spark的安装与使用.doc

07-08

Spark 安装与使用实验报告本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架，能够高效地处理大规模数据。一、实验目的本实验的目的是学习 Spark 的安装与使用...

Spark2.1下载包

04-13

spark大数据学习根本，SparkCore,SparkSQL,Spark2.1hadoop2.6压缩包，尽快下载

spark源码下载安装启动

03-14

spark源码下载安装启动,包括遇到的问题，下载地址，.编译spark源码

基于Linux环境安装spark的全套资源包

03-27

基于Linux环境安装spark的全套安装资源包

sparkspark

02-25

学习spark的网站！！

Spark官方中文文档

07-24

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

Spark安装与使用指南