打包Spark程序并上传到集群

最新推荐文章于 2025-05-13 08:15:09 发布

原创

最新推荐文章于 2025-05-13 08:15:09 发布 · 4.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

本文介绍了如何配置Spark、Scala、Hadoop环境，使用IDEA创建Scala工程，添加Spark依赖，编写WordCount实例，打包成jar，并在Spark集群上运行。关键步骤包括匹配版本、构建sbt项目、添加依赖、打包jar以及启动和提交Spark作业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前期准备

配置JDK，Scala，Hadoop，Spark运行环境，安装IDEA。

PS：注意spark、Scala、Hadoop之间的版本对应关系，否则可能会报错。

在IDEA中用sbt构建Scala工程

IDEA中点击File->new->Project

之后填写项目名称，存储路径，选择JDK版本，Sbt版本，Scala版本

其中Scala版本必须与Spark编译使用的版本一致，可以通过Spark官网查询Scala版本

构建完成后的目录如下

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ym_Allen

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

SparkCore：IDEA开发Spark程序打包--上传--提交

11号车厢

08-02

399

文章目录1、IDEA的pom.xml文件添加依赖 1、IDEA的pom.xml文件添加依赖 //将版本好添加到这里，后面引用版本变量即可 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.4.0</spark.version> ...

Spark作业提交到集群执行详解

Spark技术咖的博客

08-16

2374

Spark作业提交到集群的命令格式如下 ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other optio...

参与评论您还未登录，请先登录后发表或查看评论

IDEA spark打包自己定义的jar并上传至集群执行

weixin_33878457的博客

08-24

281

为什么80%的码农都做不了架构师？>>> ...

打包 Spark 代码在集群中运行

热门推荐

大柳的博客

12-31

1万+

介绍当前支持三种集群管理器： Spark独立集群管理器，一种简单的Spark集群管理器，很容易建立集群，基于Spark自己的Master-Worker集群 Apache Mesos，一种能够运行Haoop MapReduce和服务应用的集群管理器 Hadoop YARN，Spark可以和Hadoop集成，利用Yarn进行资源调度如果在集群中仅有Spark程序，那么可以使用Spark独立的集群管理器。如果有其他的mapreduce程序，那么需要使用Yarn或者Mesos管理

maven打包spark程序并放到集群上运行（超详细！！！）

程序媛媛

09-26

4365

PS：此文章的背景要求是已安装好spark standalone模式，maven,和Intellij,scala插件。一、maven的配置文件如下： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht...

本地Spark程序提交到hadoop集群运行流程

tf_dev的博客

08-15

2953

1.本地环境准备本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程，写的很粗糙，见谅。本地用eclipse编写Spark小程序，完成从txt文件读取数据操作。本地maven+Spark+scala环境就不多说了，如果配置出问题，就下载最新的eclipse然后从商店装插件吧。注意在maven的配置文件pom.xml中插入Spark引用：

在IDEA打包SPARK程序到linux环境下执行

qq_43634424的博客

12-10

2309

IDEA打包spark到linux上运行，亲测有效

使用idea编写spark程序并提交到yarn集群例子

03-16

以下是使用idea编写spark程序并提交到yarn集群的例子： 1. 首先，在idea中创建一个新的maven项目，选择scala语言。 2. 在pom.xml文件中添加以下依赖： ``` <groupId>org.apache.spark <artifactId>spark-...

Spark项目打包优化实践

愤怒的小兵

12-28

606

问题描述在使用Scala/Java进行Spark项目开发过程中，常涉及项目构建和打包上传，因项目依赖Spark基础相关类包一般较大，打包后若涉及远程开发调试，每次打包都消耗多很多时间，因此需对此过程进行优化。优化方案方案1：一次全量上传jar包，后续增量更新class POM文件配置（Maven） <dependencies> <dependency> <groupId>org.apache.spark</groupId>

Spark 部署方法

zhengcaihua0的博客

03-26

646

转载：https://blog.youkuaiyun.com/weixin_36394852/article/details/76030317Spark安装之前的准备文件的解压与改名tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz1rm -rf spark-2.2.0-bin-hadoop2.7.tgz1为了我后面方便配置spark，在这里我把文件夹的名字给改了mv spark-...

Spark - 集群与本地提交Spark任务问题记录

大数据研究小白

09-01

1644

Idea本地远程提交Spark任务，方便调试

spark依赖、打包、上传、运行

yan_yixin的博客

10-21

349

spark依赖、打包、上传、运行Eclipse Eclipse 1.解压所需要的lib目录 2.将整个文件复制粘贴到项目中 3.将lib包里的依赖全选进行包操作 4.出现一个新的lib依赖包 5.写完代码将需要的项目打包 6.选择jar包地址后执行下一步操作选择mian方法的class 7.之后将打包的代码以及数据上传到集群上 8.将数据放hdfs上 9.进入到spark的bin目录下 10.然后执行jar包将输出的文件写入到hdfs上 11.执行成功后在hdfs上查看数据 N

在local模式下的spark程序打包到集群上运行

weixin_30493401的博客

05-06

403

一、前期准备　　前期的环境准备，在Linux系统下要有Hadoop系统，spark伪分布式或者分布式，具体的教程可以查阅我的这两篇博客： Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建　　然后在spark伪分布式的环境下必须出现如下八个节点才算spark环境搭建好。　　　　然后再在本地windows系统下有一个简单的词频...

spark本地工程的三种打包方案及一点经验总结

千淘万漉

12-19

4029

在本地的spark写成并自测通过后，需要打成jar包并提交到集群，下面是几种打包方案第一种：通过idea的build artifacts 1.先把meta-inf这个文件夹删掉，如果是第一次build，这个文件夹自然是不存在的 2.到build中点击build artifacts, 如果这个按钮是灰的，到project structure中edit，生成的jar包在out下点击bu...

Spark入门（二）：打包程序、提交任务到集群

源码有毒的专栏

08-11

2353

1.环境工具1.1环境系统 centos jdk 1.8.0_144 scala 2.11.8 hadoop 2.7.3 spark 2.1.0 1.2打包工具IDEA + sbt2.打包2.1安装插件需要预先安装scala插件，点击File ->Setting ->Plugins ->输入框输入scala->install 安装完成需要重启IDE2.2创建

打包并提交运行Spark应用程序jar包

山海經的博客

11-22

9263

基于eclipse的Spark IDE可在 http://scala-ide.org/ 下载。以WordCount为例： package com.lxw.test import org.apache.spark.{SparkConf, SparkContext}import SparkContext._ object WordCount { def main (args: Arr

spark项目打包流程

千淘万漉

11-22

1569

注意：在windows系统上测试spark代码时如果报缺少winutils.exe的错误，下载下面文件然后解压，需要在程序运行的开始加上 System.setProperty("hadoop.home.dir", "xxx/hadoop-common-2.7.3-bin-master") 文件链接： hadoop-common-2.7.3-bin-master.zip 打包流程 1...

打包Spark程序并上传到集群

前期准备

在IDEA中用sbt构建Scala工程