使用docker搭建spark环境最简单方法

最新推荐文章于 2023-10-06 23:39:48 发布

原创最新推荐文章于 2023-10-06 23:39:48 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍如何使用Docker快速部署Spark环境，并通过具体示例演示如何在部署的容器中运行Spark作业。首先，通过Docker Pull命令获取Spark镜像，接着运行Spark容器，并在容器内部使用Spark-submit命令执行作业。

https://www.jianshu.com/p/314129ceb883

获取docker镜像

sudo docker pull sequenceiq/spark:1.6.0

运行docker容器

sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 /bin/bash

运行作业

$ cd /usr/local/spark
$ bin/spark-submit --master yarn-client --class org.apache.spark.examples.JavaWordCount lib/spark-examples-1.6.0-hadoop2.6.0.jar file:/usr/local/hadoop/input/

我们也可以把启动容器和运行作业放在一起，比如：

sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 sh -c "\"spark-submit --master y

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

grefen

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Docker 化部署 Apache Spark

AI天才研究院

08-06

1267

15年7月，Apache基金会宣布开源了Spark项目，这标志着基于内存计算的大数据处理技术进入了一个全新的阶段。由于Spark的分布式架构特性，使其具有极高的可扩展性和容错性。因此，越来越多的公司、组织和个人开始使用Spark作为分析平台进行大数据的分析处理。同时，Spark也已经成为开源领域里非常流行的一个项目。在生产环境中，部署Spark的方式通常采用集群部署模式，即将集群中的各个节点配置成一个整体，形成统一的计算资源池。这种方式的优点是简单、灵活，能够适应各种业务场景；

手把手搭建你的第一个大数据实验环境：Docker + Spark + Jupyter（零基础友好）

11-16

1279

本文介绍如何用Docker在10分钟内搭建Spark+Jupyter大数据实验环境，无需复杂配置即可运行PySpark代码。通过jupyter/pyspark-notebook镜像，可快速创建包含Spark、Jupyter及常用库的容器，并实现数据共享和可视化分析。详细步骤包括拉取镜像、创建工作目录、启动容器和编写首个PySpark程序，适合初学者快速搭建轻量级大数据学习环境。

参与评论您还未登录，请先登录后发表或查看评论

Docker 搭建 Spark 环境

Harrytsz的博客

11-21

2672

1、Ubuntu 安装 docker-compose sudo apt install docker-compose 检查 docker-compose 是否安装成功 docker-compose --version 2、安装 Spark 的 docker 镜像 docker pull singularities/spark 检查 spark 的 docker 镜像是否安装成功： docker image ls 3、创建docker-compose.yml mkdir singularitiesCR

docker on spark

weixin_30780649的博客

08-07

194

从docker 仓库 pull 镜像 docker pull sequenceiq/spark:1.4.0 构建 docker 镜像 docker build –rm -t sequenceiq/spark:1.4.0 . -t 选项是你要构建的sequenceiq/spark image的tag，就好比ubuntu:13.10一样 –rm 选项是告诉Docke...

docker搭建Spark

走到无路可退

06-16

1万+

1.docker的安装请看我的这篇文章:https://blog.youkuaiyun.com/qq_33517844/article/details/88146082 2.docker编排工具docker-compose安装 2.1 使用官网指导方式安装（不推荐）https://docs.docker.com/compose/install/ 2.2使用国内镜像源安装(推荐) curl -L ht...

spark视频-第二期：Shark、SparkSQL

weixin_30443731的博客

10-04

236

第2期Spark亚太研究院决胜云计算大数据时代：100期Spark公益大讲堂之Shark、SparkSQL，视频地址：http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=277083257568965 王家林老师(邮箱：18610086859@126.comQQ:1740415547)...

Spark runs on Docker

心中永远的正能量

09-20

8623

最近看了不少Docker相关的文档，也做了不少相关的实验。

用 Docker 搭建 Spark 集群

热门推荐

yeasy的专栏

09-22

1万+

简介 Spark 是 Berkeley 开发的分布式计算的框架，相对于 Hadoop 来说，Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉 Hadoop 的同学也不必担心，Spark 很多设计理念和用法都跟 Hadoop 保持一致和相似，并且在使用上完全兼容 HDFS。但是 Spark 的安装并不容易，依赖包括 Java、Scala、HD

容器化部署：使用Docker搭建spark集群

容器化部署是一种利用容器技术将应用程序及其依赖项打包成一个独立可运行的单元，并将其部署到不同的环境中的方法。容器化部署可以提供更高的灵活性、可移植性和可扩展性，使开发人员能够快速部署和更新应用程序，...

Spark在Windows下的环境搭建方法

10-16

在Windows环境下搭建Spark的环境是一项涉及多个软件安装和配置的过程。首先需要准备JDK（Java Development Kit），接着安装Scala，之后下载Spark本身，并设置好系统变量，最后为了更好地运行Spark环境，还需要配置...

基于docker的Spark高可靠集群搭建

02-22

基于docker的Spark高可靠集群搭建，可适用于swarm集群,Mesos集群和K8s集群。

基于Docker的Spark环境搭建理论部分

zhaohaibo的博客

11-02

3069

1.镜像制作方案我们要使用Docker来搭建hadoop,spark,hive及mysql集群，首先使用Dockerfile制作镜像，把相关的软件拷贝到约定好的目录下，把配置文件在外面先配置好，再使用docker and / docker run，拷贝移动到hadoop,spark,hive的配置目录。需要注意一点在spark中读取hive中的数据，需要把配置文件hive-site.xml拷贝到...

Docker环境部署Hadoop并使用docker构建spark运行案列（全网最详细教程）

未来社会二十年发展的核心技术趋势由ABCD四个字母组成，分别是AI（人工智能）、BlockChain（区块链）、Cloud（云）、和Data（大数据）每一次进步都有新的认知和感触

11-04

9590

本文主要是Docker部署hadoop 和使用docker构建spark运行环境，里面有详细的安装配置教程和操作说明，环境没问题的话，按照操作基本都能部署完成和运行，后面也有一些案列可以帮助更好的操作和理解hadoop和spark运行原理。

用docker搭建spark集群

wowdd1

12-12

1万+

最近在学习spark, 有了docker搭建集群太方便了安装好docker之后,在vbox里面做一个共享目录, 方便虚拟机从host拷贝文件运行docker, 接着运行boot2docker ssh 这样就进到虚拟机里面了, 因为需要用到github上的脚本, 可以拷贝你的ssh文件到虚拟机里面 cp /Users/zd/.ssh/id_* ~/.

hadoop组件---spark实战----spark on k8s模式Spark Standalone on Docker方式安装spark

直到世界的尽头

01-19

2027

在本文的例子中，你将使用 Kubernetes 和 Docker 创建一个功能型 Apache Spark 集群。你将使用 Spark standalone 模式安装一个 Spark master 服务和一组 Spark workers 。源代码 Docker 镜像主要基于 https://github.com/mattf/docker-spark 源码托管在 https://github....

Win11 Docker 快速部署spark（快速部署pySpark 、使用Docker compose部署spark）

weixin_52785140的博客

10-06

3366

构建镜像完成后，还需要修改 docker-compose.yml 文件，使其从新的镜像 s1mplecc/spark-hadoop:3中启动容器集群，同时映射 Hadoop Web UI 端口。HDFS 上的文件被读取为 RDD，在内存上进行 Transformation 后写入 HDFS。由于设置了 ssh 免密通信，首先需要启动 ssh 服务，然后依次启动 HDFS 和 YARN 集群。：挂载本地目录 D:/Docker/spark/share 到容器目录 /opt/share；

在Docker上一键部署你的Spark计算平台

weixin_33943347的博客

04-07

534

前言阅读这篇文章之后，你可以学到什么：简单来说就是，可以通过一个命令启动一个 Spark 集群，然后执行你的计算任务。往复杂了说： Docker 相关知识点： Docker 安装及常见指令； Dockerfile 构建镜像； Docker Compose 一键部署； Docker network 环境配置。 Spark 相关知识点： Spark 集群安装及配置； Spark maste...

Docker搭建Spark集群（Docker & Spark & Cluster & Local & Standalone）

三枪八路的博客

08-21

1780

Docker 搭建Spark 环境准备依赖安装Docker无Docker搭建单例安装JDK配置Java环境变量安装Scala 环境准备依赖 CentOS7.6 安装Docker 参照安装（点击）无Docker搭建单例写这篇文章的时候，spark的最新版本是2.4.3，而此时的2.4.3的一些配套库并没有更新，于是选择Spark2.4.1 + Scala2.11 + JDK1.8 安装JDK ...

Spark 安装部署（Local+Standalone+Yarn等）

mengxianglong123的博客

11-12

1187

概述 Spark作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark的运行下载地址：http://spark.apache.org/downloads.html 一、Local模式想啥呢，你之前一直在使用的模式可不是Local模式哟。所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等，之前在IDEA中运行代码的