入门spark的第一节课：docker spark镜像集群部署与spark java程序编写并运行

最新推荐文章于 2024-01-28 14:32:39 发布

原创

最新推荐文章于 2024-01-28 14:32:39 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#docker #spark #java

本文详细介绍如何使用Docker-Compose快速部署Spark集群，并通过一个统计单词计数的Java程序实例，展示如何在集群上运行Spark应用。从集群搭建到程序编写、打包、上传，再到最终的程序运行及结果查看，全程实战操作。

学习一门技术，入门最好的办法就是，去实践！实践的的第一步就是通过一个简单的实例来进行学习。

此博客通过两大部分来介绍如何部署spark集群并运行spark java程序(一个用于统计前10单词计数的spark java程序）

第一部分、通过docker-compose安装spark集群

首先先安装docker-compose,(此处省略，可以通过以下https://my.oschina.net/thinwonton/blog/2985886教程进行安装部署)

然后通过以下详细部署进行安装部署spark 集群

1、下载spark镜像

docker pull singularities/spark

2、准备好docker-compose.yaml文件，文件内容如下：

version: "2"
services:
  master:
    image: singularities/spark
    command: start-spark master
    hostname: master
    ports:
      - "6066:6066"
      - "7070:7070"
      - "8080:8080"
      - "50070:50070"
  worker:
    image: singularities/spark
    command: start-spark worker master
    environment:
      SPARK_WORKER_CORES: 1
      SPARK_WORKER_MEMORY: 1g
    links:
      - master

3、执行docker-compose up -d 命令启动spark集群

将第2步的文件新建好后，然后在文件所在目录执行docker-compose up -d 命令即可

docker-compose up  -d

4、查看spark容器

通过第3步就可以部署好了spark 集群容器了，然后可以通过以下命令查看容器

docker-compose ps

第二部分，编写好spark java(统计单词计数量前10的java程序）上传到spark 集群中并运行

1、编写好java程序，并进行打包输出

java类程序代码如下：

package com.bolingcavalry.sparkwordcount;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.List;

/**
 * @Description: spark的WordCount实战
 * @author: willzhao E-mail: zq2599@gmail.com
 * @date: 2019/2/8 17:21
 */
public class WordCount {

    public stat