一. 提交前的准备:完善代码
程序在本机调试成功之后,就要将其提交到Spark集群中运行。在提交之前,对代码进行简单的修改,以便提交时修改运行参数。
二. 提交前的准备:生成JAR包
1.点击选择菜单栏FileProject StructureArtifacts,打开“Project Sructure”窗口。
2.点击“+”“JAR”“From modules with dependecies…”,打开“Create JAR from Modules”窗口。
3.点击“Main Class”右侧的“…”按钮,弹出“Select Main Class”窗口。双击列表中你要选择的Class,返回“Create JAR from Modules”窗口。
4.点击“OK”,返回“Project Sructure”窗口。
5.修改“Name”为您要的名称,点击“Apply”生效,点击“OK”,完成创建。
6.点击菜单栏“Build”“Build Artifacts…”,弹出“Build Artifact”菜单,选择“Build”Action,即可生成JAR包。
三. 提交JAR包到Spark集群运行
1.通过WinSCP工具将JAR包上传至Spark集群的master服务器(Linux系统)。
2.打开SSH工具,运行【su - hadoop】命令,切换到hadoop用户模式下
3.向Spark集群提交任务,运行命令:
【
spark-submit
--class SSTest.CountStat ——入口
--total-executor-cores 40 ——给任务分配40个core
/home/hadoop/JodieTest/SSTest.jar ——运行JAR包所在目录
3 spark://Master.Hadoop:7077 hdfs:///logs ——程序中定义的3个运行参数
>./JodieTest/SSTest.txt 2>&1 & ——运行日志保存到hadoop用户目录下的SSTest.txt
】
本文介绍了如何将Spark程序从IntelliJ IDEA开发环境中提交到Spark集群。首先,需要完善代码并确保本地调试成功。接着,通过Project Structure生成包含依赖的JAR包。然后,使用WinSCP将JAR包上传到master服务器,并通过SSH切换到hadoop用户。最后,使用`spark-submit`命令提交任务,指定入口类、executor核心数、JAR路径及运行参数。
1137

被折叠的 条评论
为什么被折叠?



