Kafka与Spark集成系列二Spark的安装及简单应用

最新推荐文章于 2024-04-08 10:17:26 发布

原创

最新推荐文章于 2024-04-08 10:17:26 发布 · 187 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了如何下载并安装Spark 2.3.1，包括解压缩、启动Spark以及使用spark-shell进行简单操作。通过启动Spark集群，观察Master和Worker进程，以及使用Spark Shell进行单词统计的示例，展示了Spark的基本用法。

原 [Kafka与Spark集成系列二] Spark的安装及简单应用https://blog.youkuaiyun.com/u013256816/article/details/82082019版权声明：本文为博主原创文章，未经博主朱小厮允许不得转载。 https://blog.youkuaiyun.com/u013256816/article/details/82082019
欢迎支持笔者新作：《深入理解Kafka:核心设计与实践原理》和《RabbitMQ实战指南》，同时欢迎关注笔者的微信公众号：朱小厮的博客。
下载Spark安装包是安装的第一步，下载地址为http://spark.apache.org/downloads.html。截止撰稿之时，Spark最新版本为2.3.1，如下图所示，我们可以从官网中选择spark-2.3.1-bin-hadoop2.7.tgz进行下载。
在下载过后，笔者是先将安装包拷贝至/opt目录下，然后执行相应的解压缩动作，示例如下：
[root@node1 opt]# tar zxvf spark-2.3.1-bin-hadoop2.7.tgz
[root@node1 opt]# mv spark-2.3.1-bin-hadoop2.7 spark
[root@node1 opt]# cd spark
[root@node1 spark]#
1
2
3
4
在解压缩之后可以直接运行Spark，当然前提是要安装好JDK，并设置好环境变量JAVA_HOME。进入$SPARK_HOME/sbin目录下执行start-all.sh脚本启动Spark。脚本执行后，可以通过jps -l命令查看当前运行的进程信息，示例如下：
[root@node1 spark]# jps -l
23353 org.apache.spark.deploy.master.Master
23452 org.apache.spark.deploy.worker.Worker
1
2
3
可以看到Spark启动后多了Master和Worker进程，分别代表主节点和工作节点。我们还可以通过Spark提供的Web界面来查看Spark