安装启动Spark并使用spark完成java程序及读写Mysql数据库_写一个spark的java程序连接数据库-优快云博客

本文链接：https://blog.youkuaiyun.com/ANDEL2001/article/details/121844130

本文详细介绍了在CentOS上安装Spark并进行验证，编写并打包Spark独立应用程序，包括Scala和Java两种方式，以及如何连接MySQL数据库的全过程。涉及内容包括：CentOS安装、Spark本地模式安装、Sbt与Maven的使用、Java与Scala程序编写、JDBC驱动的下载与使用，最后通过SparkShell连接MySQL并进行数据操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实践目标

实践步骤

一、安装CentOS

本次实践采用虚拟机的方式安装CentOS，需要提前准备虚拟机运行软件VMWare，以及CentOS操作系统镜像。（需要压缩包欢迎留言）

安装好后设置两个账户，root、spark，用户名和密码如下 (可自行设定)：
root：123
spark：123

二、安装Spark

1.下载spark压缩包

网址：http://spark.apache.org/downloads.html
（需要压缩包欢迎留言）
在这里插入图片描述

2. 新建spark专用文件夹

ls 						#查看~路径下文件信息 
cd /usr 				#切换路径
sudo mkdir /usr/spark/	#当前路径下新建文件夹spark

在这里插入图片描述

出现报错信息：普通用户不具有新建文件夹权限
在这里插入图片描述

解决办法：

切换到超级用户root
添加sudo文件的写权限
编辑sudoers文件

具体编辑信息更改如下：

3.解压spark包到指定路径/usr/spark下

切换路径到压缩包所在位置输入ls指令确保能找到相应spark压缩包

sudo tar -zxf spark-3.0.1-bin-hadoop3.2.tgz -C /usr/spark/

嘱咐几句：极有可能博文中的文件路径与实践中操作的路径会出现不一致，
所以要知其所以然，学会自己排查错误。以下是几点排错体会：

命令行Tab键能实现自动扩充(输入的前几个字符在当前路径下唯一)
快捷键能很好地降低长文件名手动输入的错误

例如切换路径进入spark目录只需要输入cd sp 然后Tab键能实现自动扩充
掌握cd逐层排查某个文件的路径

4. 移动spark-3.0.1-bin-hadoop3.2下所有文件

执行红色部分命令行即可，其他部分很好地解释了整个移动过程中相应文件夹内容的变化。
在这里插入图片描述

5. 修改文件权限

注意：命令行中第一个 spark 为用户名，建议查阅chown指令的基本参数。
在这里插入图片描述

6. 验证是否安装成功

到此为止，已经安装好local模式的spark，通过运行spark自带示例验证spark是否安装成功。
注：如果想要spark在真正的分布式环境运行，还需要安装jdk和Hadoop
在这里插入图片描述

7. 测试spark shell交互式命令界面

在这里插入图片描述

8. 查看spark集群

通过/usr/spark/sbin下的start-all.sh启动spark，
通过http://localhost:8080看到spark集群信息。
Centos没有默认浏览器，需要自行下载firefox或Google等浏览器
在这里插入图片描述

三、Spark独立应用程序编程

1. 安装sbt

创建文件夹sbt
下载sbt：访问“http://www.scala-sbt.org”下载安装文件sbt-1.3.8.tgz
3. 解压文件
修改sbt文件权限
bin目录下的sbt-launch.jar复制到sbt安装目录
创建脚本文件sbt

vim /usr/sbt//sbt  #//注意双斜杠

输入以下内容:

#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"
java $SBT_OPTS -jar `dirname $0`/sbt-launch.jar "$@"