在eclipse上搭建spark的java开发环境

最新推荐文章于 2021-03-17 17:40:30 发布

原创最新推荐文章于 2021-03-17 17:40:30 发布 · 488 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #开发工具 #java

数据挖掘同时被 3 个专栏收录

30 篇文章

订阅专栏

java

14 篇文章

订阅专栏

spark

11 篇文章

订阅专栏

本文介绍如何使用Apache Spark实现WordCount程序，包括安装配置Spark环境、创建Java项目、编写WordCount代码并运行程序等步骤。

首先安装好spark后设置环境变量SPARK_HOME=d:\spark，在环境变量path后面添加%SPARK_HOME%bin;

启动Eclipse建立Java项目，建立一个测试的类比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件

WordCount.java代码


package test.spark;

import scala.Tuple2;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.SparkSession;

import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Pattern;

public final class WordCount {
  private static final Pattern SPACE = Pattern.compile(" ");

  public static void main(String[] args) throws Exception {

    if (args.length < 1) {
      System.err.println("Usage: JavaWordCount <file>");
      System.exit(1);
    }

    SparkSession spark = SparkSession
      .builder()
      .appName("JavaWordCount")
      .getOrCreate();

    JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD();

    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
      @Override
      public Iterator<String> call(String s) {
        return Arrays.asList(SPACE.split(s)).iterator();
      }
    });

    JavaPairRDD<String, Integer> ones = words.mapToPair(
      new PairFunction<String, String, Integer>() {
        @Override
        public Tuple2<String, Integer> call(String s) {
          return new Tuple2<>(s, 1);
        }
      });

    JavaPairRDD<String, Integer> counts = ones.reduceByKey(
      new Function2<Integer, Integer, Integer>() {
        @Override
        public Integer call(Integer i1, Integer i2) {
          return i1 + i2;
        }
      });

    List<Tuple2<String, Integer>> output = counts.collect();
    for (Tuple2<?,?> tuple : output) {
      System.out.println(tuple._1() + ": " + tuple._2());
    }
    spark.stop();
  }
}

右键选择刚才建立的项目，选择 run as => run configurations , 选择arguments，
在program arguments 填入一个测试字数的文件，比如read.txt
在vm arguments参数设置中添加程序运行的环境参数比如 -Dspark.master=local -Xmx1g
然后运行程序